CN110989614B

CN110989614B - 一种基于深度强化学习的车辆边缘计算转移调度方法

Info

Publication number: CN110989614B
Application number: CN201911310491.9A
Authority: CN
Inventors: 骆春波; 罗杨; 王亚宁; 刘翔; 徐加朗
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-10-30
Anticipated expiration: 2039-12-18
Also published as: CN110989614A

Abstract

本发明公开了一种基于深度强化学习的车辆边缘计算转移调度方法，利用马尔可夫决策过程，针对车辆在高速公路移动的场景精确建模，并采用深度强化学习找到这个场景下的车辆边缘计算转移调度方案的最佳策略；在训练深度强化学习时，通过使用近端策略优化方法，使用卷积结构提取任务对应的特征量，调整状态和奖励的表示方式等，改善了网络的收敛性能，使得在动态环境和复杂任务的情况下，在特定的时间‑能量偏好下实现在较长时间内消耗的时间和能量最小化。

Description

一种基于深度强化学习的车辆边缘计算转移调度方法

技术领域

本发明属于车辆边缘计算技术领域，具体涉及一种基于深度强化学习的车辆边缘计算转移调度方法。

背景技术

物联网技术的快速发展为车辆行驶带来了一系列的应用技术，如自动驾驶技术，增强现实技术等，这些应用技术需要计算资源、宽带宽、低延迟等条件。对于一个车辆终端来说，计算资源和能量都是有限的，车辆边缘计算可以有效的解决这一问题，将一些需要计算资源的任务转移到路旁的服务器单元可以有效减少车辆终端的计算资源消耗和能量消耗，同时这个任务转移的过程也不会带来很高的延迟。

但是转移数据也需要能量和时间，并不是转移任务就一定节省时间和能量，因此转移到路旁的服务器单元计算还是直接在本地的处理单元计算是一个关键的决策问题，利用深度强化学习解决这个决策问题是一个比较好的选择。

一些技术已经采用深度强化学习来解决一些转移调度问题，比较经典的有利用一种基于深度Q学习的算法来解决转移调度问题。但是对于车载应用，需要深度强化学习支持不同大小的任务和计算体积，转移任务的多样性和动态的环境使得经典的算法并不适用。

发明内容

针对现有技术中的上述不足，本发明提供的基于深度强化学习的车辆边缘计算转移调度方法解决了现有车辆边缘计算的转移调度方法不能适用于动态环境且转移任务复杂情况的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于深度强化学习的车辆边缘计算转移调度方法，包括以下步骤：

S1、对车辆边缘计算转移调度问题进行建模，并确定其优化目标；

S2、将实际车辆边缘计算场景下的优化目标运用到马尔可夫决策过程中，得到对应的状态空间；

S3、将状态空间输入到训练好的DNN网络中，得到车辆边缘计算时的价值函数和转移调度策略。

进一步地，所述步骤S1中，通过将车辆边缘计算转移调度问题中的任务建模成泊松过程，且在每个时间间隙内都会有任务到达；其中，任务队列中第i个任务J_i为

时间t时排在任务队列中第j个等待的任务Q[t]<j>为

式中，

表示任务J_i的生成时间；

d_i为任务J_i的输入数据大小；

k_i为任务J_i的计算体积比；

所述步骤S1中的建模方法具体为：

S11、基于车辆终端预测的数据速率，确定两种数据计算模式下的能量消耗和时间消耗；

其中，数据计算模式包括本地计算和边缘计算服务器计算；

S12、基于两种数据计算模式下的能量消耗和时间消耗，计算任务队列中的任意任务的资源消耗总量；

S13、基于计算的资源消耗总量，确定车辆边缘计算转移调度问题的优化目标。

进一步地，所述步骤S11中，在任意时间间隙t中，车辆终端预测的数据速率r[t]满足的条件为：

式中，t^tx(v,t)为传输大小为v的数据所需要的时间，括号中的t为开始传输的时间；

s为指代时间t的变量；

r[s]为在时间s开始传输数据时能够成功传输的数据大小；；

v为传输的数据大小；

在所述步骤S11中：

本地计算的时间消耗

为：

式中，f^l为本地处理器的频率；

为向上取整运算符；

所述本地计算的能量消耗为

式中，p^l为本地服务器的功率，且p^l＝ξ(f^l)^v，ξ为常数，

所述边缘计算服务器的计算时间消耗

为：

式中，

为无线数据传输时间，，为从

时刻开始传输任务数据，将任务数据传输到边缘计算服务器上需要的时间，且

下标i为任务的序列编号；

在车辆边缘计算服务器上的计算时间，且

f^s为边缘计算服务器的频率；

所述边缘计算服务器计算的能量消耗

为：

式中，p^tx为数据传输消耗的功率；

所述步骤S12中，任意车辆边缘计算任务的资源消耗总量

为：

式中，α、β均为资源消耗的控制参数；

表示任务队列中一个任务的总的等待时间，a_i为计算模式控制变量，当a_i＝1时，表示采用边缘计算服务器计算，当a_i＝0时，表示采用本地服务器计算；

表示一个队列中任务的能量消耗；

所述步骤S13中的优化目标为：

式中，

n₀为执行决策时所选择的动作总数。

进一步地，所述步骤S2中的基于马尔可夫决策过程得到的状态空间为：

式中，Q为任务队列；

x,d分别为车辆当前位置以及其与最近的边缘计算服务器单元的距离；

s^lpu为本地服务器完成当前任务所需要的剩余CPU周期数；

s^dtu为需要传输给边缘计算服务器的任务的剩余数据量；

s^mec为边缘计算服务器完成转移调度之后的任务所需的CPU周期数；

所述s^lpu、s^dtu和s^mec均随着车辆边缘计算的转移调度策略实时更新。

进一步地，在t时刻，本地服务器完成当前任务所需要的剩余CPU周期数s^lpu的更新式为：

s^lpu[t]＝max{s^lpu[t-1]-f^l,0}

当s^lpu[t]＝0时，本地计算服务器处于空闲状态，可以接受新的数据计算任务；

在t时刻，需要传输给边缘计算服务器的任务的剩余数据量s^dtu[t]为：

s^dtu[t]＝max{s^dtu[t-1]-r[t-1],0}

式中，r[t-1]为t-1时刻的数据速率；

在t时刻，边缘计算服务器完成转移调度之后的任务所需的CPU周期数s^mec为：

s^mec[t]＝max{s^mec[t-1]-f^s,0}。

进一步地，所述步骤S3中DNN网络包括输入层、spilt操作、卷积单元、Concat操作、第一全连接层、第二全连接层、第三全连接层和softmax层；

所述输入层的输出端与spilt操作输入端连接，所述spilt操作的第一输出端与卷积单元的输入端连接，所述spilt操作的第二输出端和卷积单元的输出端均与Concat操作的输入端连接，所述Concat操作的输出端依次与级联的第一全连接层和第二全连接层连接，所述第二全连接层的第一输出端第三连接层的输入端连接，所述第二全连接层的第二输出端端与所述softmax层的输入端连接；

所述输入层的输入为状态空间S；

所述spilt操作将输入的状态空间拆分为任务队列Q和其他状态，并将所述任务队列Q输入到卷积单元中，将其他状态暂时存储，并在卷积单元的操作执行完成后输入到Concat操作；

所述卷积单元用于提取任务队列Q的特征；

所述Concat操作用于将提取的任务队列Q的特征和其他状态连接；

所述第一全连接层和第二全连接层用于对输入数据进行归一化处理；

所述第三全连接层用于输出价值函数；

所述softmax层用于输出转移调度策略。

进一步地，所述步骤S3中，通过近端策略优化算法对DNN网络进行训练，其训练目标函数为：

式中，

为求数学期望函数，下标n₁为抽取的样本数量；

r_n(θ)为策略概率比，且

s_n为状态空间S中的一个状态，a_n为针对状态s_n采取的策略，θ为DNN网络参数，θ_old为更新前的网络参数，π(·)为随机策略函数，下标n为时间步长；

为在时间步为n的广义优势估计函数；

clip(·)为用于限制r_n范围的函数；

ε为超参数，即对于r_n(θ)，超出[1-ε,1+ε]范围的值都会去除；

c为损耗系数；

v_π为真正的价值函数；

v(s_n；θ)为价值网络，当网络参数为θ时，对应的状态s_n。

进一步地，在所述DNN网络的训练过程中，使整个DNN网络在数据采样和网络优化之间交替进行；

所述数据采样阶段：预先计算每个轨迹中每个步长n的广义优势估计，并基于计算出的广义优势估计

函数，按照前一阶段的网络参数对N个轨迹进行采样，并将采样数据缓存用于下一网络优化阶段；

其中，N为采样的最大数目，N个轨迹是指状态控制以及对应的动作空间、策略概率比的集合；

所述网络优化阶段：通过K次迭代更新策略函数中的参数，并在每次迭代中，都基于上一数据采样阶段缓存的采样数据使用随机梯度下降法进行网络优化。

进一步地，所述DNN网络中的动作空间为：

式中，Lε、Rε和HO分别为在本地服务器计算操作的策略集合、在边缘计算服务器计算操作的策略集合和保存原样等待操作的策略集合；

其中，

下标

为任务队列中的任务数目。

进一步地，在所述DNN网络的训练过程中，通过在动作空间和状态空间加入限制参数来提高DNN网络的收敛速度；

其中，限制后的动作空间中的HO为：

式中，p^g为限制HO操作的粗细粒度参数，m为粗细粒度参数的系数，且mp^g≤p^hmax，p^hmax为限制HO操作的最大等待时间参数；

限制后的动作空间中的Lε为：

限制后的动作空间中的Rε为：

式中，p^smax为LE和RE操作的序列数目，且p^smax<Q；

所述状态空间加入限制参数的方法为：根据状态空间中的当前任务队列长度在其奖励中加入惩罚项k_qq[t]^u，其中，q[t]为在t时刻在队列中等待的任务数目，k_q、u均为任务队列中的等待任务的控制参数，k_q和u的取值与状态空间中的等待的任务长度成反比。

本发明的有益效果为：

本发明公开了一种基于深度强化学习的车辆边缘计算转移调度方法，利用马尔可夫决策过程，针对车辆在高速公路移动的场景精确建模，并采用深度强化学习找到这个场景下的车辆边缘计算转移调度方案的最佳策略；在训练深度强化学习时，通过使用近端策略优化方法，使用卷积结构提取任务对应的特征量，调整状态和奖励的表示方式等，改善了网络的收敛性能，使得在动态环境和复杂任务的情况下，实现在较长时间内消耗的时间和能量都最小化。

附图说明

图1为本发明提供的基于深度强化学习的车辆边缘计算转移调度方法流程图。

图2为本发明提供的车辆边缘计算转移调度建模的场景结构示意图。

图3为本发明提供的DNN(强化深度学习)网络结构示意图。

图4为本发明提供的实施例中在静态条件下本发明方法与其他基准方法的比较示意图。

图5为本发明提供的实施例中在动态条件下本发明方法与其他基准方法的比较示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于深度强化学习的车辆边缘计算转移调度方法，包括以下步骤：

如图2所示，在上述步骤S1中，通过将车辆边缘计算转移调度问题中的任务建模成泊松过程，且在每个时间间隙内都会有任务到达；其中，任务队列中第i个任务J_i为

时间t时排在任务队列中第j个等待的任务Q[t]<j>为

式中，

表示任务J_i的生成时间；

d_i为任务J_i的输入数据大小，单位是bit；

k_i为任务J_i的计算体积比，单位是CPU周期/bit；

步骤S1中的建模方法具体为：

其中，数据计算模式包括本地计算和边缘计算服务器计算；

具体地，在上述步骤S11中，关于数据的传输过程，在任何的时间间隙t，车辆终端都可以获得关于信道摔落系数的一定的先验知识，并预测一个数据速率r[t](单位为bit/时间间隙)，这个数速率应该满足的条件为：

s为指代时间t的变量；

r[s]为在时间s开始传输数据时能够成功传输的数据大小；；

v为传输的数据大小；

步骤S11中的本地计算的时间消耗

为：

式中，f^l为本地处理器的频率，单位为单位周期/时间间隙；

为向上取整运算符；

本地计算的能量消耗为

式中，p^l为本地服务器的功率，且p^l＝ξ(f^l)^v，ξ为常数，

边缘计算服务器计算的时间包括两部分：无线数据传输时间以及在服务器上的计算时间，无线传输时间为：

式中，

为从

时刻开始传输任务数据，将任务数据传输到边缘计算服务器上需要的时间，下标i为任务的序列编号；

在服务器上的计算时间为：

式中，f^s为边缘计算服务器的频率；

因此，对于一个任务，边缘计算服务器计算的时间消耗

为：

由于边缘计算服务器的计算过程不消耗车辆终端的能量，因此这种方式消耗的能量只有传输数据消耗的能量，得到边缘计算服务器的能量消耗

为：

式中，p^tx为数据传输消耗的功率；

对于一个任务队列中等待的任务，完成任务要消耗的时间可以表示为：

其中，

表示任务队列中一个任务的总的等待时间，a_i为计算模式控制变量，当a_i＝1时，表示采用边缘计算服务器计算，当a_i＝0时，表示采用本地服务器计算；因此，

为任务计算所需的时间，

为任务的等待时间；同理，可以得到一个队列中的任务消耗的能量为：

因此，步骤S12中，任意车辆边缘计算任务的资源消耗总量

为：

式中，α、β均为资源消耗的控制参数；

表示一个队列中任务的能量消耗；

步骤S13中的优化目标为：

式中，

n₀为执行决策时所选择的动作总数。

上述步骤S2中，将S1中的优化目标运用到马尔可夫决策过程的动态模型中时，基于马尔可夫决策过程得到的状态空间为：

式中，Q为任务队列；

s^lpu为本地服务器完成当前任务所需要的剩余CPU周期数；

s^dtu为需要传输给边缘计算服务器的任务的剩余数据量；

s^lpu、s^dtu和s^mec均随着车辆边缘计算的转移调度策略实时更新；

其中，在t时刻，本地服务器完成当前任务所需要的剩余CPU周期数s^lpu的更新式为：

s^lpu[t]＝max{s^lpu[t-1]-f^l,0}

s^dtu[t]＝max{s^dtu[t-1]-r[t-1],0}

式中，r[t-1]为t-1时刻的数据速率；

s^mec[t]＝max{s^mec[t-1]-f^s,0}。

另外，马尔可夫决策过程中的动作空间A将作为后续DNN网络中的参数，对输入的空间状态进行决策，形成完整的转移调度策略；

具体地，马尔可夫决策过程中的动作空间A为：

其中，

在每个时间间隙，车辆终端的所有任务的总时间延迟可以表示为：

如果任务在本地进行，则

如果任务在转移调度的过程中，

或

的值为1。因此在执行过动作a_n后，从状态S_n到S_n+1的总时延为：

总的能量消耗为：

由于系统具有动态工作负载，如果任务到达率相对于调度速度来说比较大，那么可能会发生溢出。因此，我们考虑了由于任务溢出带来的开销Δ_o(s_n,a_n,s_n+1)，从而总的开销表示为：

式中，ξ为任务溢出的乘法参数；

α和β为根据低延迟或者低能量消耗需求进行调节。

关于马尔可夫决策过程的奖励函数可以表示为：

式中，k_s是调节奖励范围的参数；

对于一个从状态s_m开始的马尔可夫链来说，完整的奖励函数可以写成：

式中，γ为折现系数，取值范围为(0,1]。

如图3所示，上述步骤S3中的中DNN网络包括输入层、spilt操作、卷积单元、Concat操作、第一全连接层、第二全连接层、第三全连接层和softmax层；输入层的输出端与spilt操作输入端连接，spilt操作的第一输出端与卷积单元的输入端连接，spilt操作的第二输出端和卷积单元的输出端均与Concat操作的输入端连接，Concat操作的输出端依次与级联的第一全连接层和第二全连接层连接，第二全连接层的第一输出端第三连接层的输入端连接，第二全连接层的第二输出端端与softmax层的输入端连接；

其中，输入层的输入为状态空间S；

spilt操作将输入的状态空间拆分为任务队列Q和其他状态，并将任务队列Q输入到卷积单元中，将其他状态暂时存储，并在卷积单元的操作执行完成后输入到Concat操作；

卷积单元用于提取任务队列Q的特征；

Concat操作用于将提取的任务队列Q的特征和其他状态连接；

第一全连接层和第二全连接层用于对输入数据进行归一化处理；

第三全连接层用于输出价值函数；

softmax层用于输出转移调度策略。

其中第三全连接层与前面的网络结构一起形成价值网络，用于输出价值函数v(s_n；w)；softmax层与前面的网络结构一起形成测量网络，用于输出转移调度策略π(a_n|S_n；θ)。

具体地，在网络训练过程中主要是为了得到两个目标：价值函数v(s_n；w)和转移调度策略π(a_n|S_n；θ)，二者都是以状态空间S为输入，但是输出不一致。我们使用参数共享的DNN网络架构，但是在第二全连接层后，对于策略网络，使用softmax层输出所有操作的概率分布，对于价值网络，使用全连接层输出状态。由于状态空间中的大多数数据都是描述任务队列Q的，因此我们在DNN网络中嵌入一个卷积单元在提取队列的Q的特征，之后再与状态空间中的其他参数连接在一起送到全连接层。在训练过程通过近端策略优化算法对DNN网络进行训练，其训练目标函数为：

式中，

为求数学期望函数，下标n₁为抽取的样本数量；

r_n(θ)为策略概率比，且

为在时间步为n的广义优势估计函数；

clip(·)为用于限制r_n范围的函数；

c为损耗系数；

v_π为真正的价值函数；

v(s_n；θ)为价值网络，当网络参数为θ时，对应的状态为s_n。

在具体的DNN网络的训练过程中，使整个DNN网络在数据采样和网络优化之间交替进行；

数据采样阶段：预先计算每个轨迹中每个步长n的广义优势估计，并基于计算出的广义优势估计函数

按照前一阶段的网络参数对N个轨迹进行采样，并将采样数据缓存用于下一网络优化阶段；

其中，N为采样的最大数目，N个轨迹是指状态控制以及对应的动作空间、策略概率比的集合{S₀,a₀,a₀,S₁,...,S_n}；

网络优化阶段：通过K次迭代更新策略函数中的参数，并在每次迭代中，都基于上一数据采样阶段缓存的采样数据使用随机梯度下降法进行网络优化。在优化结束后，旧的策略(前一阶段中的网络参数)就被完全更新，然后删除缓存的数据，下一次循环开始。

在DNN网络训练过程中，状态空间和动作空间过大将会导致网络难以收敛，为了解决这个问题，通过在动作空间和状态空间加入限制参数来提高DNN网络的收敛速度；

其中，限制后的动作空间中的HO为：

限制后的动作空间中的Lε为：

限制后的动作空间中的Rε为：

式中，p^smax为LE和RE操作的序列数目，且p^smax<Q；

我们认为在任务队列中有大量任务在等待状态是不合理的，这有可能导致认为溢出和效率降低；因此，在状态空间加入限制参数的方法为：根据状态空间中的当前任务队列长度在其奖励中加入惩罚项k_qq[t]^u，其中，q[t]为在t时刻在队列中等待的任务数目，k_q、u均为任务队列中的等待任务的控制参数，k_q和u的取值与状态空间中的等待的任务长度成反比。

实施例2：

本发明实施例中给出了DNN网络的相关参数设置值；

表1：DNN网络训练时的参数设置

表2：DNN网络训练时的超参数设置

表3：DNN网络结构参数设置

需要说明的是，表3中参数设置与图3中的DNN网络对应，其中卷积单元的参数比较固定，而全连接层和softmax层是与具体的任务维度相关的，需要根据任务队列长度进行调整，对于长度为20的任务对应，全连接层的最后输出维度设定为512。

实施例3：

在本发明实施例中，提供了本发明方法与其他基准算法的比较示意图；

图4为本发明在静态条件下与其他基准算法的比较，其中DRLOSM(DRL-basedoffloading scheduling method)是本发明方法，图例为算法1，RD(Random offloading)指随机转移到边缘计算服务器执行，图例为算法2，AL(All local excution)指全部本地执行，图例为算法3，AO(All offloading)指全部转移到边缘计算服务器执行，图例为算法4，TG(Time greedy)指时间贪婪策略，图例为算法5，EG(Energygreedy)指能量贪婪策略，图例为算法6，GA(Genetic Algorithm)指遗传算法，图例为算法7。

图4中左上角的图展示的是在静态条件不同算法的平均花费随着α的变化。我们可以看到算法2(RD)，算法3(AL)，算法4(AO)的平均成本总是非常高，因为这些算法的逻辑十分的简单，行为非常不灵活。当α比较小时，意味着我们比较看重能量的消耗，因此算法6(EG)表现较好，但是随着α的增加，变现逐渐变差，并被算法5(TG)超过。当α比较小时，算法7(GA)的搜索空间非常大，因此容易表现较差。而算法1(DRLOSM)在不同的α条件下(DRLOSM)表现都不错。

左下角的图展示了平均再转移任务数随着α的变化。任务再转移是由转移失败引起的。对于算法3(AL)和算法6(EG)来说，他们不会发生转移失败。算法4(AO)的平均再转移任务数最多，因为他总是要上传到服务器进行计算，即使加上随机性之后依旧表现很差(例如算法2(RD))，即使是算法7(GA)，也存在很多转移失败。而算法1(DRLOSM)可以通过恰当的选取动作来避免任务转移失败。

右边的两张图分别展示了不同算法的时间延迟和能量消耗的情况。非常明显的，算法6(EG)总是有最小的能量消耗，但是时延最大。算法5(TG)总是有最小的时间延迟，但是能量消耗较大。算法1(DRLOSM)和算法7(GA)变现了一种较好的均衡，但是正如之前说的，由于搜索空间巨大，算法7(GA)不一定能1找到一个好的解决方案。综合下来，算法1(DRLOSM)变现更好。

图5为本发明动态条件下与其他基准算法的比较，由于遗传算法在动态条件下表现很差，因此不做比较。

图5中的四张图对应的α为0.06，β为1。对于每张图的测试都是将工作负载从0.1逐渐提升到1，代表着从几乎没有任务到任务溢出。

对于左上角的图，随着工作负载的增加，所有算法的平均任务延迟都在增加，对于算法6(EG)，算法3(AL)，算法4(AO)，算法2(RD)来说都会在某一个阶段陡增，这是因为这些算法无法根据工作负载进行调整，当工作负载足够大时就会导致任务再任务队列里堆积。与预料相一致的，算法5(TG)总是有最小的时间延迟，算法6(EG)总是有最大的时间延迟。而算法1(DRLOSM)则是实现了较小的时间延迟，性能曲线较为平滑，意味着它可以根据工作负载进行策略的调整。

对于左下角的图，可以看出，算法2(RD)，算法3(AL)，算法4(AO)，算法6(EG)与工作负载几乎无关，证明它们是不会根据工作负载进行策略调整的。算法5(TG)的能量消耗随着工作负载的升高而降低，这是因为当执行1更多任务时，再转移任务出现的比例降低，这个算法再非常高的工作负载的情况下较为有效。而算法1(DRLOSM)随着工作负载的增加，会消耗更多的能源，因为它能够通过调度更多具有较高能耗的任务来避免队列的快速增长，从而保持相对较小的总体成本。

右上角的图比较了平均成本。当工作负载比较小时算法6(EG)表现尚可。对于较大的工作负载，算法5(TG)表现优于其他基准算法。但是算法1(DRLOSM)在所有的工作负载条件下都表现最好。

右下角的图比较了平均再转移任务数，可以发现只有在较大的工作负载下，算法1开始出现任务的再转移，明显优于出算法6(EG)以外的其他算法。综合四张图来看，算法1(DRLOSM)的表现明显是比其他的基准的算法好的。

本发明的有益效果为：