CN112929849B

CN112929849B - 一种基于强化学习的可靠车载边缘计算卸载方法

Info

Publication number: CN112929849B
Application number: CN202110109732.4A
Authority: CN
Inventors: 王俊华; 岳玉宸; 高广鑫
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-03-01
Anticipated expiration: 2041-01-27
Also published as: CN112929849A

Abstract

本发明公开了一种基于强化学习的可靠车载边缘计算卸载方法，用于由于城市障碍物导致的路侧单元(RSUs)覆盖范围有限，或者路侧单元计算能力不足等场景中，车辆可以借助无人机(UAV)进行可靠的计算卸载。本发明所述方法将最大化系统效用和最小化功率消耗的多目标优化问题，转化为功率分配问题和计算卸载问题两个子问题，由无人机和路侧单元共同完成任务的分配和计算。该方法通过为传输功率创建机会约束，使用Chebyshev不等式转化机会约束，推导出最小传输功率，确保任务传输的可靠性。本发明通过改进的深度强化学习模型提高计算卸载效率，利用多目标优化问题的结果，调整深度强化学习模型中预测的目标Q值，实现边缘服务器的离线训练，在线更新。

Description

一种基于强化学习的可靠车载边缘计算卸载方法

技术领域

本发明属于车联网的通信技术领域，具体涉及一种基于强化学习的可靠车载边缘计算卸载方法。

背景技术

边缘计算是为车辆提供强大计算能力的最有前途的技术之一，为了使车辆在复杂的交通场景中做出快速响应，它使移动车辆能够将计算任务卸载到各种边缘服务器，例如路侧单元和路侧单元。由于动态车辆网络中的不完全覆盖和间歇性连接，设计一个可靠、高效的计算卸载策略是一个挑战。无人机由于价格低廉、易于部署和灵活移动的优势，已经在包括但不限于智能传感器数据采集、目标跟踪、灾区监测和通信辅助等领域得到应用和发展，考虑通过无人机实现可靠、高效的计算卸载策略。

在无人机技术发展下，通过为无人机配备专用通信接口，无人机可以飞到没有基础设施覆盖的目标区域，并与各种网络设备通信，以提供更好的网络连接。此外，无人机本身有一部分空闲的计算资源，可以用来为没有足够计算能力的网络边缘设备(例如驾驶车辆和移动用户)执行任务。通过连接到具有强大计算能力的边缘服务器，无人机可以交替地将部分任务卸载到边缘服务器，以获得更高的计算速度。

深度强化学习(DRL)将深度学习的感知能力和强化学习的决策能力相结合，将两者结合起来，优势互补，为复杂系统的感知决策问题提供了解决思路。

本发明考虑车联网中计算卸载与无人机技术的结合，对深度强化学习算法作进一步改进，提出了一种基于强化学习的可靠车载边缘计算卸载方法。

发明内容

发明目的：本发明旨在实现最大化系统效用，以及最小化能源消耗，解决动态环境下，车辆与无人机之间的高可靠性计算卸载问题。

技术方案：一种基于强化学习的可靠车载边缘计算卸载方法，包括如下步骤：

(1)构建车辆通信系统实现车辆与边缘服务器的通信，所述车辆包括搭载有数据中心，所述边缘服务器包括路侧单元及无人机；

(2)建立车辆与边缘服务器的通信网络，确定边缘计算的多目标优化问题和约束条件，其数学模型表达式如下所示：

(C4)xi,j∈{0,1},

其中

若x_i,j＝1表示任务v_i,j卸载至无人机，若x_i,j＝0则表示任务v_i,j通过无人机作为中继，且卸载至路侧单元；

表示第i车辆传输第j任务所需的传输功率；C1表示保证传输可靠性的约束条件，其中γ_i,j表示信噪比，γ^tgt表示目标信噪比，1-ε表示可靠性阈值，ε为最大耐受传输错误率；

表示传输功率的分布集，C2表示计算资源总消耗不能超过无人机的最大可用计算能力，其中

表示任务v_i,j在无人机计算时的频率；C3表示移动车辆分配的传输功率不能超过功率阈值；C4表示二进制变量的约束；

(3)基于最小化能源消耗和最大化系统效用为目标，分解多目标优化任务，确定功率分配任务和计算卸载任务；

(4)根据车辆与边缘服务器构建的通信网络，边缘服务器完成车载边缘计算任务并反馈至车辆。

进一步的，步骤(1)所述路侧单元为设置在道路旁的固定式服务器，所述无人机搭载有服务器，该无人机包括处理来自车辆数据中心的计算任务或作为中继将该计算任务进行转发至路侧单元。

更具体的，步骤(1)场景设定在公共城市地区，安装路侧单元作为车辆网络基础设施，每一个路侧单元连接一个边缘边缘服务器，由于移动车辆I＝{1,…，|I|}有大量计算密集型任务J＝{1,…，|J|}，车载单元无法处理，所以路侧单元安排任务搭载服务器的无人机作为无人机，也即，边缘服务器，使移动车辆将计算任务卸载至任务无人机，又或者作为移动车辆向路侧单元卸载计算任务的中继，此外，由首席无人机收集任务无人机的计算卸载问题，将其上传至边缘服务器进行训练。

进一步的，步骤(2)还包括如下计算过程：

(21)定义“传输可靠性”为成功传输概率超过给定的可靠性阈值的可能性，其计算公式为：

Pr(γ_i,j≥γ^tgt)≥1-ε；

(22)获取卸载任务v_i,j至无人机的信噪比γ_i,j，其计算公式为：

其中K₀为系统常量，dis_i,j表示当第i车辆传输第j任务时与无人机的距离，e表示路径损耗指数，N₀表示噪声功率，|h_i,j|表示信道衰减参数，符合均值μ_h和方差C_h的一类分布；

(23)获取任务v_i,j从车辆传输至无人机的速率

为：

其中ω_i,j表示任务v_i,j所分配的带宽；

(24)计算任务v_i,j分别卸载至无人机或路侧单元的时延，其计算公式为：

其中

表示任务v_i,j从车辆至无人机的传输速率，

表示任务v_i,j从无人机至路侧单元的传输速率，

和

分别表示任务v_i,j在无人机或者路侧单元执行时的计算频率，A_i,j和B_i,j分别表示任务v_i,j传输数据和计算数据的大小；

(25)基于参数

和

获取任务v_i,j的总延迟，其计算公式为：

(26)获取系统效用函数U_i,j，其计算方式为：

U_i,j＝α_i,j log(1+χ-d_i,j)；

其中α_i,j是满意度参数，χ用来调整对数函数使其非负；

(27)获取计算能源消耗E_i,j，其计算公式为：

其中

是任务v_i,j在无人机上的传输功率，κ^u表示有效电容系数，由无人机的CPU硬件结构决定。

进一步的，步骤(3)对于功率分配任务的具体计算过程如下：

(s31)基于信道衰减参数|h_i,j|，引入变量

使得

令

其中α表示信道路径损耗指数，令

符合如下分布：

(s32)“传输可靠性”的机会约束可表示为：

(s33)使用广义的Chebyshev不等式转化机会约束，其表示为：

(s34)满足高度可靠的通信要求，推导出在最坏情况下信道条件下，任务v_i,j最小传输功率，其计算公式为：

另外，步骤(3)对于计算卸载任务过程具体如下：

(S31)将优化问题转化为马尔可夫决策模型，进一步分为若干个时间片t，在时间t的系统状态s可表示为：

其中

表示无人机当前状态下可用计算资源，

表示所有边缘服务器当前状态下剩余的可用能源；

在时间t的动作a可表示为：

a(t)＝{λ⁰(t),λ¹(t)}；

其中λ⁰(t)+λ¹(t)＝1，分别表示计算任务卸载到路侧单元或者无人机的概率；

(S32)定义π为在状态s选择动作a可能性的策略函数，在策略π下，状态和动作对〈s,a〉的函数值被定义为Q^π(s,a)，其计算公式为：

其中σ∈(0，1)是学习速率，δ表示反映未来迭代中的预测奖励的重要性的折扣率；

(S33)令w和w'分别表示训练网络和目标网络的参数集，获取目标Q值，其计算公式为：

(S34)训练网络的参数集w根据损失函数进行更新，损失函数表示为：

Loss(w)＝E[y(s,a)-Q^π(s,a,w)]²；

(S35)利用优化的返回值G(s,a)替代目标Q值y(s,a)，更新后的损失函数表示为：

Loss(w)＝E[G(s,a)-Q^π(s,a,w)]²；

(S36)利用DQN中的优先经验回放，提高深度强化学习过程中的学习性能，利用深度强化学习模型通过离线方式，学习不同任务卸载实例的调度经验，无人机保存训练好的模型进行在线更新。

有益效果：与现有技术相比，本发明所述的一种基于强化学习的可靠车载边缘计算卸载方法以最大化服务效用和最小化计算卸载过程中的能量消耗为目标，提出并解决了边缘计算中的多目标优化问题，此外，为了保证车辆与无人机之间的高可靠性计算卸载，考虑到动态通信信道特性，建立了最小发射功率的机会约束，使用广义的Chebyshev的上限来变换机会约束，并推导出在最坏情况信道条件下满足可靠性要求的所需最小传输功率，在线深度强化学习算法实现在服务效用和能量消耗方面性能的提升。

附图说明

图1为本发明所述方法的流程示意图；

图2为实施例中所构建的系统模型通信架构关系示意图；

图3为实施例中每个单个计算卸载问题的在线深度强化学习算法(Online DRL)的系统效用，以及解决100个计算卸载问题的在线深度强化学习算法(Ave-ODRL)、启发式贪婪算法(Ave-HEU)、优化分支定界算法(Ave-OPT)三种算法的平均系统效用对比图；

图4为实施例中每个单个计算卸载问题的在线深度强化学习算法(Online DRL)的能源消耗，以及解决100个计算卸载问题的在线深度强化学习算法(Ave-ODRL)、启发式贪婪算法(Ave-HEU)、优化分支定界算法(Ave-OPT)三种算法的平均能源消耗对比图。

具体实施方式

为了详细地说明本发明所公开的技术方案，下面结合具体实施例和说明书附图做进一步的阐述。

未来自动驾驶技术的发展重点之一在于车载边缘计算产品的设计。边缘计算，是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务。其应用程序在边缘侧发起，产生更快的网络服务响应，满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间，或处于物理实体的顶端。而云端计算，仍然可以访问边缘计算的历史数据。

本发明所提供的一种基于强化学习的可靠车载边缘计算卸载方法，针对动态环境中进行移动车辆的计算卸载，实现系统效用的最大化和能耗的最小化。为了保证动态计算卸载过程中的可靠性，对传输功率制定了机会约束，该约束保证了高可靠性，且无需假设信道衰落的分布是完全已知的。采用广义的Chebyshev不等式对机会约束进行变换，进一步推导出所需的最小传输功率。另一方面，为了提高卸载效率，降低寻找最优卸载决策的算法复杂度，所述方法包括采用一种改进的在线深度强化学习模型，该模型通过离线方式学习不同任务卸载实例的调度经验，将训练好的模型保存在不同的无人机中，并在线使用/更新，以解决类似的相同规模的任务卸载问题。此外，考虑到问题实例的特殊性质，用可以离线计算的最优解值来周期性地替换预测的目标Q值，以提高模型的收敛速度。通过综合研究，证明了所提出的计算卸载算法的可行性和优异性能。

具体地说，本发明的实施首先是构建车辆通信系统实现车辆与边缘服务器的通信，在本实施例中，边缘服务器即为常规所述的边缘服务器。另外，边缘服务器提出固定式和移动式，即，路侧单元和无人机，作为实施例，路侧单元根据实际的道路交通需要设置在路边或沿途站点，对于无人机则可以通过载体或临时在沿途设置。本实施例给出移动边缘服务器为搭载服务器的无人机，用以处理分配任务或计算任务，也可以作为中继转发计算任务，并实现数据处理结果的反馈。在以无人机为基础，本领域技术人员应该知晓其他定点或临时设置边缘服务器的实施方案。无人机的引入，可以作为边缘服务器，也可以作为中继，可以应对交通量巨大或路侧单元临时瘫痪下的边缘计算服务。

本发明所述方法的流程示意图如图1所示，实施过程具体如下：

Step1、构建研究的系统模型，包括车辆与无人机和路侧单元之间的通信方式。实施例场景设定在公共城市地区，如图2所示，安装路侧单元作为车辆网络基础设施，每一个路侧单元连接一个边缘服务器，由于移动车辆I＝{1,…，|I|}有大量计算密集型任务J＝{1,…，|J|}，车载单元无法处理，且由于路侧单元的覆盖范围有限以及城市中障碍物(即大量树木和大型建筑)导致通信条件差，车辆和路侧单元之间的计算卸载机会减少，所以在这种情况下，无人机将被派遣协助计算卸载，充当从车辆向路侧单元转发任务的中继，同时也是直接计算车辆计算任务的边缘服务器，它们飞到一群车辆上方的特定位置，根据需要悬停，然后收集车辆的请求，并做出计算卸载决定。此外，依据本发明，由首席无人机收集任务无人机的计算卸载问题，将其上传至边缘服务器进行离线训练，边缘服务器具有强大的计算能力，可以根据新的问题样本训练和更新当前的神经网络模型。首席无人机飞至任务无人机，使其在线更新其网络模型参数。

Step2、根据车辆与无人机和路侧单元之间的通信方式，确定多目标优化问题，具体如下：

多目标优化问题旨在最小化能源消耗，最大化系统效用，其计算公式为：

(C4)xi,j∈{0,1}

其中

若x_i,j＝1表示任务v_i,j卸载至无人机，若x_i,j＝0则表示任务v_i,j通过无人机作为中继，进一步卸载至路侧单元；

表示第i车辆传输第j任务所需的传输功率；E_i,j(x,p)为能源消耗函数，U_i,j(x,p)为系统效用函数；C1表示保证传输可靠性的约束条件，其中γ_i,j表示信噪比，γ^tgt表示目标信噪比，1-ε表示可靠性阈值，ε为最大耐受传输错误率；C2表示计算资源总消耗不能超过无人机的最大可用计算能力，其中

表示任务v_i,j在无人机计算时的频率；C3表示移动车辆分配的传输功率不能超过功率阈值；C4表示二进制变量的约束。具体实施例中，设置移动车辆数|I|＝10，每辆车计算任务最大|J|＝6。

首先，定义“传输可靠性”为成功传输概率超过给定的可靠性阈值的可能性，其表示公式为：Pr(γ_i,j≥γ^tgt)≥1-ε，获取卸载任务v_i,j至无人机的信噪比γ_i,j，其计算公式为：

其中K₀为系统常量，dis_i,j表示当第i车辆传输第j任务时与无人机的距离，e表示路径损耗指数，N₀表示噪声功率，|h_i,j|表示信道衰减参数，符合均值μ_h和方差C_h的一类分布。本实施例中，设置可靠性阈值为γ^tgt＝0.96，系统常量K₀＝1，路径损耗指数e＝3，噪声功率N₀＝10^-9W，信道衰减参数|h_i,j|²满足均值为2，方差为0.4的一类分布，传输距离范围为[100，500]米。

其次，获取任务v_i,j从车辆传输至无人机的速率

为：

其中ω_i,j表示任务v_i,j所分配的带宽。计算任务v_i,j分别卸载至无人机或路侧单元的时延，其计算公式为：

基于参数

和

获取任务v_i,j的总延迟，其计算公式为：

其中

表示任务v_i,j从车辆至无人机的传输速率，

表示任务v_i,j从无人机至路侧单元的传输速率，

和

分别表示任务v_i,j在无人机或者路侧单元执行时的计算频率，A_i,j和B_i,j分别表示任务v_i,j传输数据和计算数据的大小。

最后，获取系统效用函数U_i,j，其计算方式为：

U_i,j＝α_i,j log(1+χ-d_i,j)，

获取计算能源消耗E_i,j，其计算公式为：

其中α_i,j是满意度参数，χ用来调整对数函数使其非负，

是任务v_i,j在无人机上的传输功率，κ^u表示有效电容系数，它由无人机的CPU硬件结构决定。具体实施例中，设置满意度参数α_i,j＝1，有效电容系数κ^u＝10^-27。

Step3、分解多目标优化任务，其子任务一为功率分配任务：

基于信道衰减参数|h_i,j|，引入变量

使得

令

令

符合如下分布：

于是，“传输可靠性”的机会约束可表示为：

使用广义的Chebyshev不等式转化机会约束，其表示为：

推导出在最坏情况下信道条件下，任务v_i,j最小传输功率，其计算公式为：

利用给每个计算任务分配最小的传输功率获得可行策略，从而得到帕累托最优解，又从能源消耗公式可得，随着传输功率的增加，能耗也单调增加，随之时延发生变化，导致系统效用也发生改变，这将会产生一个新的卸载策略，所以，利用“ε-约束策略”进行优化问题的松弛。

Step4、分解多目标优化任务，其子任务二为计算卸载任务：

首先，将优化问题转化为马尔可夫决策模型，进一步分为多个时间片t，在时间t的系统状态s可表示为：

其中

表示无人机当前状态下可用计算资源，

表示所有边缘服务器当前状态下剩余的可用能源，在时间t的动作a可表示为：

a(t)＝{λ⁰(t),λ¹(t)}，其中λ⁰(t)+λ¹(t)＝1，分别表示计算任务卸载到路侧单元或者无人机的概率，假设计算任务v_i,j按照时间t调度，剩余的可用资源将按照如下方式进行更新：

1)如果任务v_i,j卸载至无人机，无人机的计算资源是充分的，那么，剩余的可用资源是减去计算任务v_i,j后的结果，代理商将通过卸载任务v_i,j至无人机获得效用奖励值；

2)如果代理商决定任务v_i,j卸载至路侧单元，那么，无人机的计算资源将保持不变，若路侧单元的可用资源对于计算任务v_i,j而言是充分的，则剩余的可用资源是减去计算任务v_i,j后的结果，代理商获得效用奖励值；

3)如果任务卸载至没有充足资源的边缘服务器(例如无人机，或者路边路侧单元)，那么剩余的可用资源将被标记“-1”，代理商将获得效用奖励值0，在这种情况下，下一个状态变为无效，学习过程会提前停止。

其次，定义π为在状态s选择动作a可能性的策略函数，在策略π下，状态和动作对〈s,a〉的函数值被定义为Q^π(s,a)，其计算公式为：

其中σ∈(0，1)是学习速率，δ表示反映未来迭代中的预测奖励的重要性的折扣率。在具体实施例中，设置学习速率σ＝0.001，折扣率为δ＝0.9。

最后，令w和w'分别表示训练网络和目标网络的参数集，获取目标Q值，其计算公式为：

训练网络的参数集w根据损失函数进行更新，损失函数表示为：

Loss(w)＝E[y(s,a)-Q^π(s,a,w)]²，

利用优化的返回值G(s,a)替代目标Q值y(s,a)，更新后的损失函数表示为：Loss(w)＝E[G(s,a)-Q^π(s,a,w)]²，利用DQN中的优先经验回放，提高深度强化学习过程中的学习性能，利用深度强化学习模型通过离线方式，学习不同任务卸载实例的调度经验，无人机保存训练好的模型进行在线更新。

该方法应用面向智能交通系统，可用于车载语音识别，对行人、交通指示牌和障碍物的图像识别等应用中。每一个车载计算任务可代表一个简单的识别任务。本实施例中为了验证本发明的实际效果，进行了仿真实验，并加入了在线深度强化学习算法(Ave-ODRL)、启发式贪婪算法(Ave-HEU)和优化分支定界算法(Ave-OPT)三种实施方案作为对比。如图3所示，给出了处理单个计算卸载任务的在线深度强化学习算法(Online DRL)的效用，以及解决100个计算卸载任务的Ave-ODRL、Ave-HEU及Ave-OPT的平均效用作为对比，为了清楚起见，本实施例根据Online DRL实现的效用对计算卸载问题进行排序，可得Ave-ODRL的效用是在Ave-HEU和Ave-OPT之间，对于超过80％的计算卸载问题，Online DRL实现了比HEU更高的效用。图4则更好地说明了Ave-ODRL的平均能耗低于OPT和HEU，通过根据能耗对计算卸载问题进行排序可得，与HEU算法相比，Online DRL算法以较低的能量消耗卸载了超过70％的计算任务。