CN113961204A

CN113961204A - 一种基于多目标强化学习的车联网计算卸载方法及系统

Info

Publication number: CN113961204A
Application number: CN202111156213.XA
Authority: CN
Inventors: 伍卫国; 张祥俊; 柴玉香; 杨诗园
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-21

Abstract

本发明公开了一种基于多目标强化学习的车联网计算卸载方法及系统，采用RMDDQN‑Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化，得到多目标优化的帕累托最优解，满足车辆在计算卸载过程中涉及的多个优化目标同时得到优化，基于RBF神经网络的学习方法来学习每个目标的决策价值，从而更好动态调整每个目标的权重。多目标优化的目的是通过联合考虑卸载决策和计算资源的分配，实现能量消耗、任务延迟、RSU的负载均衡以及卸载任务的隐私安全，通过优化计算卸载的多个指标，使得车联网中的车辆卸载时延和能耗保持在较低的基础水平，令资源受限的设备能够将计算密集型任务卸载到边缘设备，从而为广泛的业务提供独特的延迟限制服务质量保证。

Description

一种基于多目标强化学习的车联网计算卸载方法及系统

技术领域

本发明涉及了在5G网络驱动下的车联网络中的计算卸载和资源分配领域，具体涉及一种基于多目标强化学习的车联网计算卸载方法及系统。

背景技术

作为5G时代最有前途的技术之一，传统的车辆自组网向车联网(IoV)不断快速发展。车载应用和服务变得越来越丰富(如自动驾驶、视频辅助实时导航、增强现实等)，这些应用往往是计算密集型、高能耗和低延迟型的应用。然而车载计算单元有限的计算能力成为了这些应用的瓶颈，难以满足低延迟的实时性要求。移动边缘计算(MEC)正在成为一种新的引人注目的计算范式，它推动云计算能力更接近车载终端(vehicular terminals)，即VT可将计算密集型任务通过无线接入网络vehicular-to-roadside(V2R)卸载到与MEC服务器相连接的路边单元(RSU)，从而拓展移动设备的计算能力、电池容量和存储能力等。然而，如何在时变和不确定的MEC环境下做出卸载决策和资源分配是一个关键挑战。一方面，当前的研究仅仅基于时延和能耗进行优化，未考虑到卸载任务的安全隐私。另一方面，由于MEC服务器的计算、存储、带宽等资源有限，RSU的负载均衡对任务执行影响十分明显。更糟糕的是，用户的需求可能会随着时间的推移而变化，例如，一些车载应用在检测到紧急事件时需要更少的延迟，而在没有检测到事件时则需要更长的电池续航，无法有效提高车联网计算卸载效率。因此，需要一个能动态权衡多个目标间的重要性的决策模块，确保计算卸载过程中更高的网络性能(包括卸载时延、能耗，负载均衡)，同时保护卸载任务的隐私安全。

发明内容

本发明的目的在于提供一种基于多目标强化学习的车联网计算卸载方法及系统，以克服现有技术的不足。

为达到上述目的，本发明采用如下技术方案：

一种基于多目标强化学习的车联网计算卸载方法，包括以下步骤：

S1，根据车辆计算卸载过程的成本建立成本模型；

S2，采用RMDDQN-Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化，得到多目标优化的帕累托最优解；

S3，利用切比雪夫尺度化方法将车辆计算卸载过程的成本的多个目标的奖励标量化，从而逼近帕累托最优解；

S4，采用RBF神经网络学习多个目标间的价值动态调整权重，从而得到多个目标间的最优解，根据多个目标间的最优解进行车联网计算卸载。

进一步的，车辆计算卸载过程的成本包括时延、能耗、隐私熵、负载均衡和车辆的移动性。

进一步的，设在某一时刻t₀，RSU服务范围内的N个移动设备MD，表示为N＝{1,2,...,N}，每个移动设备MD可向服务范围内的路边单元RSU发送卸载请求，MD n的卸载任务为Γ_n＝(b_n,c_n,d_n)，其中b_n表示任务的输入数据量大小，c_n为完成任务所需要的总的CPU周期数，d_n表示MD n可容忍的最大时延。

进一步的，车辆计算卸载过程任务Γ_n的执行的总时间T和总能耗E分别为：

I_n为卸载变量，w为MU n的带宽，f_n为分配给MU n的计算资源，

分别为本地和卸载模式下的执行的总时延。

进一步的，RSU的设备的负载均衡表示为

Load_i(t₀)表示RSU i在t₀期间所有资源的综合负载，lb表示负载均衡的指标个数。

进一步的，将车联网场景下的计算卸载建模为一个有约束的多目标优化：

其中，I,f分别为卸载变量和计算资源变量，约束C₁表示保证所有任务都在截止时间d_n之前完成；约束C₂表示任务要么在本地执行要么卸载到RSU执行；约束C₃表示每个卸载任务都可以得到RSU分配的计算资源从而保障任务的顺利执行；约束C₄表示分配给每个MD的计算资源不超过RSU的总计算资源量，C₅为时延和服务范围约束，即任务Γ_n应满足执行总时间不超过最大容忍时间t^p。

进一步的，采用Tchebycheff来尺度化q向量，测量多目标解x到每个目标函数f的距离值，即

其中，

对于状态s和动作a，将目标函数值f替换为

得到标量化的SQ值(SQ-value):

进一步的，在多目标强化学习目标间的权重RBF网络中使用的高斯函数为

其中，||x-c||表示欧氏距离，χ代表宽度(形状参数)，第二层实现加权求和。网络输出形式如下

其中，M为RBF的个数，W_i表示RBFφ_i的权重，S_i代表RBFφ_i的参数向量。

进一步的，在权重更新过程中，将系统探索环境得到的数据储存起来，然后随机采样将过去的experience和目前的experience混合，更新深度神经网络的参数。

一种基于多目标强化学习的车联网计算卸载系统，包括优化模块和卸载模块，优化模块用于存储根据车辆计算卸载过程的成本建立的成本模型，同时采用RMDDQN-Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化，得到多目标优化的帕累托最优解，利用切比雪夫尺度化方法将车辆计算卸载过程的成本的多个目标的奖励标量化，从而逼近帕累托最优解；卸载模块采用RBF神经网络学习多个目标间的价值动态调整权重，从而得到多个目标间的最优解，根据多个目标间的最优解进行车联网计算卸载输出。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种基于多目标强化学习的车联网计算卸载方法，根据车辆计算卸载过程的成本建立成本模型，采用RMDDQN-Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化，得到多目标优化的帕累托最优解，满足车辆在计算卸载过程中涉及的多个优化目标同时得到优化，基于RBF神经网络的学习方法来学习每个目标的决策价值，从而更好动态调整每个目标的权重。多目标优化的目的是通过联合考虑卸载决策和计算资源的分配，实现能量消耗、任务延迟、RSU的负载均衡以及卸载任务的隐私安全，通过优化计算卸载的多个指标，使得车联网中的车辆卸载时延和能耗保持在较低的基础水平，令资源受限的设备能够将计算密集型任务卸载到边缘设备，从而为广泛的业务提供独特的延迟限制服务质量保证。

本发明考虑了终端车辆的移动性，并联合优化时延、能耗、隐私熵、负载均衡，引入多目标强化学习算法RMDDQN-Learning求解多个相互冲突目标的优化问题。每个DDQN代理分别在不同的目标上追求奖励，动态逼近帕累托前沿。所求得的多目标最优解使计算卸载的时延、能耗和负载均衡最低的情况下，追求最高的隐私熵。利用动态调整不同目标的价值变化。可有效较少了车联网中计算卸载的时延和能耗，并且保证MEC的负载均衡和用户信息安全。

进一步的，在时变的MEC环境中，使卸载任务的隐私熵得到保障，确保了终端用户的隐私安全。在多个MEC服务器的计算集群中，RMDDQN-Learning同时优化了负载均衡指标，使服务运营商提供的边缘服务器资源的利用更加充分。

附图说明

图1是本发明实施例中MEC使能的车联网示场景示意图。

图2是本发明实施例中基于切比雪夫方法的多目标优化问题的尺度化示意图。

图3是本发明实施例中单目标和多目标的马尔科夫示例图。

图4是本发明实施例中基于RBF的多目标DDQN强化学习方法的车联网计算卸载算法框架图。

图5是本发明实施例中能耗和时间对比。

具体实施方式

下面结合附图对本发明做进一步详细描述：

如图1所示，一种基于多目标强化学习的车联网计算卸载方法，包括以下步骤：

S1，构建计算卸载过程的成本模型，具体包括时延、能耗、隐私熵、负载均衡，并考虑车辆在过程中的通信参数变化，即考虑车辆的移动性。

定义M＝{1,2,...,M}表示RSU单元的集合，用于计算RSU单元的时延。设在某一时刻t₀，RSU服务范围内的N个移动设备MD，表示为N＝{1,2,...,N}。每个MD可向服务范围内的RSU发送卸载请求。定义MD n的卸载任务Γ_n＝(b_n,c_n,d_n)，其中b_n表示任务的输入数据量大小，c_n为完成任务所需要的总的CPU周期数，d_n表示MD n可容忍的最大时延。

考虑二进制卸载模式，每个MD要么将整个任务Γ_n在本地设备执行，要么卸载任务到边缘节点RSU执行。令卸载变量为I_n∈{0,1}，其中I_n＝0表示任务在本地执行，反之，I_n＝1表示卸载任务到RSU执行。则本地和卸载模式(卸载任务到RSU)下的执行的总时延分别为

为

则对应的任务Γ_n执行总执行能耗为

其中上式中，第n个移动设备MD n的本地执行CPU频率、每CPU周期消耗的能量分别为

τ_n，MD n的本地执行时间不应超过最大容忍时延d_n。p_n为MU n的功率，w为MU n的带宽，f_n为分配给MU n的计算资源。则结合本地模式和卸载模式两种模式下时延和能耗，可得任务Γ_n的执行的总时间T和总能耗E分别为

其次，隐私熵作为一种定量的隐私度量方法，广泛用于度量任务数据传输的安全性。本发明引入隐私熵来确保传输数据的安全性指标，即隐私熵越大，任务的传输就越安全。设每个任务Γ_n的到达遵循泊松过程，所以整个任务到达过程也是泊松过程；表示为

其中

则任务Γ_n和ζ_n之间的同余关系为

因此，任务Γ_n的隐私熵计算为

最后，由于MEC服务器的计算、存储、带宽资源有限，RSU的负载均衡对任务执行影响十分明显。本发明考虑卸载过程的负载均衡，将所有RSU的设备的负载均衡表示为

Load_i(t₀)表示RSU i在t₀期间所有资源的综合负载，lb表示负载均衡的指标个数。为简化问题，本发明考虑计算RSU的CPU利用率、内存、网络带宽，即lb＝3。λ_k是满足条件

的每个资源的权重，L_k(t)为每个时间间隙δ内的每种资源的使用率，可采用常用top指令获取系统信息然后分析得出，avg(t₀)为所有计算设备的平均负载，LB(t₀)表示负载均衡值，值越小，负载均衡结果越好。

S2，采用RMDDQN-Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化：车联网场景下的计算卸载建模为一个有约束的多目标优化问题(CMOP)，该模型综合考虑了计算卸载过程中的时延、能耗和负载均衡同时，权衡了卸载任务的安全隐私。即将车联网场景下的计算卸载建模为一个有约束的多目标优化问题。即优化问题可以描述为

其中，I,f分别为卸载变量和计算资源变量。约束C₁表示保证所有任务都在截止时间d_n之前完成；约束C₂表示任务要么在本地执行要么卸载到RSU执行；约束C₃表示每个卸载任务都可以得到RSU分配的计算资源从而保障任务的顺利执行；约束C₄表示分配给每个MD的计算资源不超过RSU的总计算资源量。C₅为时延和服务范围约束，即任务Γ_n应满足执行总时间不超过最大容忍时间t^p。另一方面，为确保卸载任务顺利完成，任务Γ_n需在移动设备(MD)移动出RSU m所提供的的服务区R前执行完成。

S3，该多目标强化学习算法将多个DDQN并行执行，从而求得多目标优化问题的帕累托最优解。将在MEC下的计算卸载问题表述为基于MDP模型的控制策略决策问题，即

其中，R₁＝T，R₂＝E，R₃＝-H，R₄＝LB。

S4，通过结合切比雪夫尺度化方法，将多个目标的奖励标量化，从而逼近帕累托最优解。即采用Tchebycheff来尺度化q向量(Chebyshev metric)。通常，乌托邦点(utopianpoint)z^*被用作参考，l_p-metrics被用来测量距离，每个目标函数给定一个加权系数w_o。测量多目标解x到每个目标函数f(即f_o,o＝1,...,m)的距离值，即

其中，

在p＝∞的情况下，该度量(metric)也被称为切比雪夫度量。即

对于状态s和动作a，将目标函数值f替换为

得到标量化的SQ值(SQ-value):

S5，采用RBF网络学习目标间的价值动态调整权重，从而求得多个目标间的最优解，使VT在卸载过程中的网络性能(时延、能耗、负载均衡)最低的基础上，最大限度保护卸载任务的安全隐私。RBF包括两层神经网络。第一层由RBF组成，用以产生输入向量x＝[x₁,x₂,...,x_d]的非线性变化。空间维数d等于RBF的个数。RBF是输入x和一些固定点c(称为中心)之间距离的实函数。本发明在多目标强化学习目标间的权重RBF网络中使用的高斯函数为

其中，M为RBF的个数，W_i表示RBFφ_i的权重，S_i代表RBFφ_i的参数向量。网络学习过程需要一组学习实例，每个实例都包含网络输入(插值节点的坐标向量)和目标输出(该节点中的函数值)。在学习过程中，通过使用训练样本更新，从而降低瞬时均方误差(instantaneous mean square error,MSE)。

即

n表示插补点个数，e_j为第j个节点的近似误差。x_j代表第j个节点的坐标，u(x_j)为第j个节点的网络输出，T_j为第j个节点的短期记忆模块已知的函数值。因此，如图5所示，基于RBF的多目标DDQN强化学习计算卸载算法(RMDDQN-Learning)训练过程中通过切比雪夫尺度化方法对不同目标函数在动作a下的q-values进行尺度化，近而寻找最优的策略。同时，权重RBF网络动态更新目标的权重，近而指导多目标强化学习。

为提高学习效率，每个目标上的强化学习代理，在权重更新过程中，将系统探索环境得到的数据储存起来。然后随机采样将过去的experience和目前的experience混合，更新深度神经网络的参数。既降低了数据相关性，也使得样本可重用。

网络的更新过程如下：

如图4所示，我们采用多个double DQN(DDQN)的多目标强化学习方法来优化计算卸载过程中的多个指标。每个DDQN_i有一个Q_i(s；a；θ_i)函数，与每个目标(包括时延、能耗、负载均衡、隐私熵)一一对应。DDQN算法解决了DQN可能对Q值过拟合问题，即采用

替换原先的

来更新Q值。DDQN有两个价值函数(value function)，一个用来选择动作(当前状态的策略)，一个用来评估当前状态的价值。这两个价值函数的参数分别记做θ和θ^′。DDQN通过解耦目标Q值动作的选择和目标Q值的计算这两步，来达到消除过度估计的问题。RMDDQN-Learning算法执行过程如算法1所示，每个DDQN都通过如下损失函数迭代优化

在基于RBF的权重网络学习中使用梯度方法优化MSE的数值。则梯度下降第k次迭代时，RBFN的参数向量θ的通过如下调整：

θ^k+1＝θ^k+Δθ^k+1 (24)

其中

是向量θ的修正，η是学习率。

是函数(23)在迭代k时由参数θ^k的值得到的梯度向量。当(23)中函数达到一个小的MSE值时，梯度更新的计算过程完成。

如图1所示，一种基于多目标强化学习的车联网计算卸载方法，包括一个移动感知车联网场景。在移动边缘计算(MEC)服务器的协助下，每个MD在一定范围内享受路边单位(RSU，roadside unit)提供的服务，并可以将计算任务卸载给与RSU相关联的MEC服务器(MES,mobile edge computing server)以增强自生的计算能力的，并获得低的任务执行时延和能耗。

图2是基于切比雪夫方法的多目标优化问题的尺度化示意图。

建立的能耗、时延、隐私熵、负载均衡模型后，采用多目标强化学习方法执行计算卸载。在多目标优化问题的奖励尺度化方法上，采取了非线性尺度化方法，即采用切比雪夫尺度化方法对多个目标值标量化。该方法克服了在一些凸的帕累托最优集合有局部凹的情况下，线性函数用于行动选择无法发现一些帕累托支配行动。

图3是本发明实施例中单目标和多目标的马尔科夫示例图。本发明将在MEC下的计算卸载问题表述为基于MDP模型的控制策略决策问题，即<S,A,P,R,γ>。与传统的马尔科夫模型不同，多目标强化学习返回的是一个向量而不是标量，即它将状态-动作对映射到一个奖励向量

其中，R₁＝T，R₂＝E，R₃＝-H，R₄＝LB。每个目标上的代理在不同的目标上优化各自目标。

图4是本发明实施例中基于RBF的多目标DDQN强化学习方法的车联网计算卸载算法框架图。多个DDQN可并行执行，从而求得多目标优化问题的帕累托最优解。即RMDDQN-Learning可使计算卸载的网络性能(时延和能耗、负载均衡)在最优的基础上，保证任务卸载的安全隐私。且本法提出的一种新颖的基于rbf神经网络的动态权重学习方法，即径向基函数神经网络来学习每个目标的价值变化，动态调整目标间的权重。

最后，图5是本发明实施例中能耗和时间对比。可看出在卸载决策优化过程中，能耗和时延呈现反相关。我们提出的RMDDQN-Learning能够在两者之间取得平衡，在所有算法中并保持了最小的能耗和时延。

实施例：

本发明通过建立完整的计算卸载方案，根据4G蜂窝网络特性,设定任务大小为[50,1000]KB。每个任务所需的CPU周期数为[0.2,1]Gigacycles，MEC的CPU频率在[1.5,4.5]GHz。在带宽为10MHz的情况下，可以根据香农公式确定MU的传输速率。在噪声功率为-172dBm的情况下，传输功率为10dBm。本次实验是在Centos 7.9上使用TensorFlow 1.10和Python 3.5来实现RMDDQN-Learning卸载算法(RBF-based multi-objective DDQNreinforcement learning computation offloading algorithm)，为了进行比较，我们将其与其他基准算法进行比较。分别为NSGA-II:改进的快速精英非支配排序遗传算法，即采用遗传算法用于在MEC网络中多个目标的折中、采用基于Chebyshev Scalarization的多目标Q-learning算法、采用基于决策值的多目标DQN算法、随机生成卸载决策。如图5所示，结果表明，RMDDQN-Learning对每个目标的价值进行学习，通过RBF网络对目标间的权重做到动态适配，从而确保了多个目标间的平衡，在对多种基准算法对比中均取得最优的能效表现。

Claims

1.一种基于多目标强化学习的车联网计算卸载方法，其特征在于，包括以下步骤：

S1，根据车辆计算卸载过程的成本建立成本模型；

2.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法，其特征在于，车辆计算卸载过程的成本包括时延、能耗、隐私熵、负载均衡和车辆的移动性。

3.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法，其特征在于，设在某一时刻t₀，RSU服务范围内的N个移动设备MD，表示为N＝{1，2，...，N}，每个移动设备MD可向服务范围内的路边单元RSU发送卸载请求，MD n的卸载任务为Γ_n＝(b_n，c_n，d_n)，其中b_n表示任务的输入数据量大小，c_n为完成任务所需要的总的CPU周期数，d_n表示MD n可容忍的最大时延。

4.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法，其特征在于，车辆计算卸载过程任务Γ_n的执行的总时间T和总能耗E分别为：

I_n为卸载变量，w为MU n的带宽，f_n为分配给MU n的计算资源，

分别为本地和卸载模式下的执行的总时延。

5.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法，其特征在于，RSU的设备的负载均衡表示为

Load_i(t₀)表示RSU i在t₀期间所有资源的综合负载，1b表示负载均衡的指标个数。

6.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法，其特征在于，将车联网场景下的计算卸载建模为一个有约束的多目标优化：

其中，I，f分别为卸载变量和计算资源变量，约束C₁表示保证所有任务都在截止时间d_n之前完成；约束C₂表示任务要么在本地执行要么卸载到RSU执行；约束C₃表示每个卸载任务都可以得到RSU分配的计算资源从而保障任务的顺利执行；约束C₄表示分配给每个MD的计算资源不超过RSU的总计算资源量，C₅为时延和服务范围约束，即任务Γ_n应满足执行总时间不超过最大容忍时间t^p。

7.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法，其特征在于，采用Tchebycheff来尺度化q向量，测量多目标解x到每个目标函数f的距离值，即

其中，a＜p＜∞，w_i≥0，

对于状态s和动作a，将目标函数值f替换为

得到标量化的SQ值(SQ-value)：

8.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法，其特征在于，在多目标强化学习目标间的权重RBF网络中使用的高斯函数为

其中，||x-c||表示欧氏距离，χ代表宽度(形状参数)，第二层实现加权求和；网络输出形式如下

9.根据权利要求8所述的一种基于多目标强化学习的车联网计算卸载方法，其特征在于，在权重更新过程中，将系统探索环境得到的数据储存起来，然后随机采样将过去的experience和目前的experience混合，更新深度神经网络的参数。

10.一种基于多目标强化学习的车联网计算卸载系统，其特征在于，包括优化模块和卸载模块，优化模块用于存储根据车辆计算卸载过程的成本建立的成本模型，同时采用RMDDQN-Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化，得到多目标优化的帕累托最优解，利用切比雪夫尺度化方法将车辆计算卸载过程的成本的多个目标的奖励标量化，从而逼近帕累托最优解；卸载模块采用RBF神经网络学习多个目标间的价值动态调整权重，从而得到多个目标间的最优解，根据多个目标间的最优解进行车联网计算卸载输出。