CN113961204A - 一种基于多目标强化学习的车联网计算卸载方法及系统 - Google Patents

一种基于多目标强化学习的车联网计算卸载方法及系统 Download PDF

Info

Publication number
CN113961204A
CN113961204A CN202111156213.XA CN202111156213A CN113961204A CN 113961204 A CN113961204 A CN 113961204A CN 202111156213 A CN202111156213 A CN 202111156213A CN 113961204 A CN113961204 A CN 113961204A
Authority
CN
China
Prior art keywords
unloading
objective
vehicle
computing
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111156213.XA
Other languages
English (en)
Inventor
伍卫国
张祥俊
柴玉香
杨诗园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202111156213.XA priority Critical patent/CN113961204A/zh
Publication of CN113961204A publication Critical patent/CN113961204A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • G06F8/62Uninstallation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于多目标强化学习的车联网计算卸载方法及系统,采用RMDDQN‑Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化,得到多目标优化的帕累托最优解,满足车辆在计算卸载过程中涉及的多个优化目标同时得到优化,基于RBF神经网络的学习方法来学习每个目标的决策价值,从而更好动态调整每个目标的权重。多目标优化的目的是通过联合考虑卸载决策和计算资源的分配,实现能量消耗、任务延迟、RSU的负载均衡以及卸载任务的隐私安全,通过优化计算卸载的多个指标,使得车联网中的车辆卸载时延和能耗保持在较低的基础水平,令资源受限的设备能够将计算密集型任务卸载到边缘设备,从而为广泛的业务提供独特的延迟限制服务质量保证。

Description

一种基于多目标强化学习的车联网计算卸载方法及系统
技术领域
本发明涉及了在5G网络驱动下的车联网络中的计算卸载和资源分配领域,具体涉及一种基于多目标强化学习的车联网计算卸载方法及系统。
背景技术
作为5G时代最有前途的技术之一,传统的车辆自组网向车联网(IoV)不断快速发展。车载应用和服务变得越来越丰富(如自动驾驶、视频辅助实时导航、增强现实等),这些应用往往是计算密集型、高能耗和低延迟型的应用。然而车载计算单元有限的计算能力成为了这些应用的瓶颈,难以满足低延迟的实时性要求。移动边缘计算(MEC)正在成为一种新的引人注目的计算范式,它推动云计算能力更接近车载终端(vehicular terminals),即VT可将计算密集型任务通过无线接入网络vehicular-to-roadside(V2R)卸载到与MEC服务器相连接的路边单元(RSU),从而拓展移动设备的计算能力、电池容量和存储能力等。然而,如何在时变和不确定的MEC环境下做出卸载决策和资源分配是一个关键挑战。一方面,当前的研究仅仅基于时延和能耗进行优化,未考虑到卸载任务的安全隐私。另一方面,由于MEC服务器的计算、存储、带宽等资源有限,RSU的负载均衡对任务执行影响十分明显。更糟糕的是,用户的需求可能会随着时间的推移而变化,例如,一些车载应用在检测到紧急事件时需要更少的延迟,而在没有检测到事件时则需要更长的电池续航,无法有效提高车联网计算卸载效率。因此,需要一个能动态权衡多个目标间的重要性的决策模块,确保计算卸载过程中更高的网络性能(包括卸载时延、能耗,负载均衡),同时保护卸载任务的隐私安全。
发明内容
本发明的目的在于提供一种基于多目标强化学习的车联网计算卸载方法及系统,以克服现有技术的不足。
为达到上述目的,本发明采用如下技术方案:
一种基于多目标强化学习的车联网计算卸载方法,包括以下步骤:
S1,根据车辆计算卸载过程的成本建立成本模型;
S2,采用RMDDQN-Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化,得到多目标优化的帕累托最优解;
S3,利用切比雪夫尺度化方法将车辆计算卸载过程的成本的多个目标的奖励标量化,从而逼近帕累托最优解;
S4,采用RBF神经网络学习多个目标间的价值动态调整权重,从而得到多个目标间的最优解,根据多个目标间的最优解进行车联网计算卸载。
进一步的,车辆计算卸载过程的成本包括时延、能耗、隐私熵、负载均衡和车辆的移动性。
进一步的,设在某一时刻t0,RSU服务范围内的N个移动设备MD,表示为N={1,2,...,N},每个移动设备MD可向服务范围内的路边单元RSU发送卸载请求,MD n的卸载任务为Γn=(bn,cn,dn),其中bn表示任务的输入数据量大小,cn为完成任务所需要的总的CPU周期数,dn表示MD n可容忍的最大时延。
进一步的,车辆计算卸载过程任务Γn的执行的总时间T和总能耗E分别为:
Figure BDA0003288467150000021
Figure BDA0003288467150000031
In为卸载变量,w为MU n的带宽,fn为分配给MU n的计算资源,
Figure BDA0003288467150000032
Figure BDA0003288467150000033
分别为本地和卸载模式下的执行的总时延。
进一步的,RSU的设备的负载均衡表示为
Figure BDA0003288467150000034
Figure BDA0003288467150000035
Figure BDA0003288467150000036
Loadi(t0)表示RSU i在t0期间所有资源的综合负载,lb表示负载均衡的指标个数。
进一步的,将车联网场景下的计算卸载建模为一个有约束的多目标优化:
Figure BDA0003288467150000037
其中,I,f分别为卸载变量和计算资源变量,约束C1表示保证所有任务都在截止时间dn之前完成;约束C2表示任务要么在本地执行要么卸载到RSU执行;约束C3表示每个卸载任务都可以得到RSU分配的计算资源从而保障任务的顺利执行;约束C4表示分配给每个MD的计算资源不超过RSU的总计算资源量,C5为时延和服务范围约束,即任务Γn应满足执行总时间不超过最大容忍时间tp
进一步的,采用Tchebycheff来尺度化q向量,测量多目标解x到每个目标函数f的距离值,即
Figure BDA0003288467150000041
其中,
Figure BDA0003288467150000042
对于状态s和动作a,将目标函数值f替换为
Figure BDA0003288467150000043
得到标量化的SQ值(SQ-value):
Figure BDA0003288467150000044
进一步的,在多目标强化学习目标间的权重RBF网络中使用的高斯函数为
Figure BDA0003288467150000045
其中,||x-c||表示欧氏距离,χ代表宽度(形状参数),第二层实现加权求和。网络输出形式如下
Figure BDA0003288467150000046
其中,M为RBF的个数,Wi表示RBFφi的权重,Si代表RBFφi的参数向量。
进一步的,在权重更新过程中,将系统探索环境得到的数据储存起来,然后随机采样将过去的experience和目前的experience混合,更新深度神经网络的参数。
一种基于多目标强化学习的车联网计算卸载系统,包括优化模块和卸载模块,优化模块用于存储根据车辆计算卸载过程的成本建立的成本模型,同时采用RMDDQN-Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化,得到多目标优化的帕累托最优解,利用切比雪夫尺度化方法将车辆计算卸载过程的成本的多个目标的奖励标量化,从而逼近帕累托最优解;卸载模块采用RBF神经网络学习多个目标间的价值动态调整权重,从而得到多个目标间的最优解,根据多个目标间的最优解进行车联网计算卸载输出。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种基于多目标强化学习的车联网计算卸载方法,根据车辆计算卸载过程的成本建立成本模型,采用RMDDQN-Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化,得到多目标优化的帕累托最优解,满足车辆在计算卸载过程中涉及的多个优化目标同时得到优化,基于RBF神经网络的学习方法来学习每个目标的决策价值,从而更好动态调整每个目标的权重。多目标优化的目的是通过联合考虑卸载决策和计算资源的分配,实现能量消耗、任务延迟、RSU的负载均衡以及卸载任务的隐私安全,通过优化计算卸载的多个指标,使得车联网中的车辆卸载时延和能耗保持在较低的基础水平,令资源受限的设备能够将计算密集型任务卸载到边缘设备,从而为广泛的业务提供独特的延迟限制服务质量保证。
本发明考虑了终端车辆的移动性,并联合优化时延、能耗、隐私熵、负载均衡,引入多目标强化学习算法RMDDQN-Learning求解多个相互冲突目标的优化问题。每个DDQN代理分别在不同的目标上追求奖励,动态逼近帕累托前沿。所求得的多目标最优解使计算卸载的时延、能耗和负载均衡最低的情况下,追求最高的隐私熵。利用动态调整不同目标的价值变化。可有效较少了车联网中计算卸载的时延和能耗,并且保证MEC的负载均衡和用户信息安全。
进一步的,在时变的MEC环境中,使卸载任务的隐私熵得到保障,确保了终端用户的隐私安全。在多个MEC服务器的计算集群中,RMDDQN-Learning同时优化了负载均衡指标,使服务运营商提供的边缘服务器资源的利用更加充分。
附图说明
图1是本发明实施例中MEC使能的车联网示场景示意图。
图2是本发明实施例中基于切比雪夫方法的多目标优化问题的尺度化示意图。
图3是本发明实施例中单目标和多目标的马尔科夫示例图。
图4是本发明实施例中基于RBF的多目标DDQN强化学习方法的车联网计算卸载算法框架图。
图5是本发明实施例中能耗和时间对比。
具体实施方式
下面结合附图对本发明做进一步详细描述:
如图1所示,一种基于多目标强化学习的车联网计算卸载方法,包括以下步骤:
S1,构建计算卸载过程的成本模型,具体包括时延、能耗、隐私熵、负载均衡,并考虑车辆在过程中的通信参数变化,即考虑车辆的移动性。
定义M={1,2,...,M}表示RSU单元的集合,用于计算RSU单元的时延。设在某一时刻t0,RSU服务范围内的N个移动设备MD,表示为N={1,2,...,N}。每个MD可向服务范围内的RSU发送卸载请求。定义MD n的卸载任务Γn=(bn,cn,dn),其中bn表示任务的输入数据量大小,cn为完成任务所需要的总的CPU周期数,dn表示MD n可容忍的最大时延。
考虑二进制卸载模式,每个MD要么将整个任务Γn在本地设备执行,要么卸载任务到边缘节点RSU执行。令卸载变量为In∈{0,1},其中In=0表示任务在本地执行,反之,In=1表示卸载任务到RSU执行。则本地和卸载模式(卸载任务到RSU)下的执行的总时延分别为
Figure BDA0003288467150000061
Figure BDA0003288467150000071
Figure BDA0003288467150000072
则对应的任务Γn执行总执行能耗为
Figure BDA0003288467150000073
Figure BDA0003288467150000074
其中上式中,第n个移动设备MD n的本地执行CPU频率、每CPU周期消耗的能量分别为
Figure BDA0003288467150000075
τn,MD n的本地执行时间不应超过最大容忍时延dn。pn为MU n的功率,w为MU n的带宽,fn为分配给MU n的计算资源。则结合本地模式和卸载模式两种模式下时延和能耗,可得任务Γn的执行的总时间T和总能耗E分别为
Figure BDA0003288467150000076
Figure BDA0003288467150000077
其次,隐私熵作为一种定量的隐私度量方法,广泛用于度量任务数据传输的安全性。本发明引入隐私熵来确保传输数据的安全性指标,即隐私熵越大,任务的传输就越安全。设每个任务Γn的到达遵循泊松过程,所以整个任务到达过程也是泊松过程;表示为
Figure BDA0003288467150000078
其中
Figure BDA0003288467150000079
则任务Γn和ζn之间的同余关系为
Figure BDA00032884671500000710
因此,任务Γn的隐私熵计算为
Figure BDA00032884671500000711
最后,由于MEC服务器的计算、存储、带宽资源有限,RSU的负载均衡对任务执行影响十分明显。本发明考虑卸载过程的负载均衡,将所有RSU的设备的负载均衡表示为
Figure BDA0003288467150000081
Figure BDA0003288467150000082
Figure BDA0003288467150000083
Loadi(t0)表示RSU i在t0期间所有资源的综合负载,lb表示负载均衡的指标个数。为简化问题,本发明考虑计算RSU的CPU利用率、内存、网络带宽,即lb=3。λk是满足条件
Figure BDA0003288467150000084
的每个资源的权重,Lk(t)为每个时间间隙δ内的每种资源的使用率,可采用常用top指令获取系统信息然后分析得出,avg(t0)为所有计算设备的平均负载,LB(t0)表示负载均衡值,值越小,负载均衡结果越好。
S2,采用RMDDQN-Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化:车联网场景下的计算卸载建模为一个有约束的多目标优化问题(CMOP),该模型综合考虑了计算卸载过程中的时延、能耗和负载均衡同时,权衡了卸载任务的安全隐私。即将车联网场景下的计算卸载建模为一个有约束的多目标优化问题。即优化问题可以描述为
Figure BDA0003288467150000085
其中,I,f分别为卸载变量和计算资源变量。约束C1表示保证所有任务都在截止时间dn之前完成;约束C2表示任务要么在本地执行要么卸载到RSU执行;约束C3表示每个卸载任务都可以得到RSU分配的计算资源从而保障任务的顺利执行;约束C4表示分配给每个MD的计算资源不超过RSU的总计算资源量。C5为时延和服务范围约束,即任务Γn应满足执行总时间不超过最大容忍时间tp。另一方面,为确保卸载任务顺利完成,任务Γn需在移动设备(MD)移动出RSU m所提供的的服务区R前执行完成。
S3,该多目标强化学习算法将多个DDQN并行执行,从而求得多目标优化问题的帕累托最优解。将在MEC下的计算卸载问题表述为基于MDP模型的控制策略决策问题,即
Figure BDA0003288467150000091
其中,R1=T,R2=E,R3=-H,R4=LB。
S4,通过结合切比雪夫尺度化方法,将多个目标的奖励标量化,从而逼近帕累托最优解。即采用Tchebycheff来尺度化q向量(Chebyshev metric)。通常,乌托邦点(utopianpoint)z*被用作参考,lp-metrics被用来测量距离,每个目标函数给定一个加权系数wo。测量多目标解x到每个目标函数f(即fo,o=1,...,m)的距离值,即
Figure BDA0003288467150000092
其中,
Figure BDA0003288467150000093
在p=∞的情况下,该度量(metric)也被称为切比雪夫度量。即
Figure BDA0003288467150000094
对于状态s和动作a,将目标函数值f替换为
Figure BDA0003288467150000095
得到标量化的SQ值(SQ-value):
Figure BDA0003288467150000096
S5,采用RBF网络学习目标间的价值动态调整权重,从而求得多个目标间的最优解,使VT在卸载过程中的网络性能(时延、能耗、负载均衡)最低的基础上,最大限度保护卸载任务的安全隐私。RBF包括两层神经网络。第一层由RBF组成,用以产生输入向量x=[x1,x2,...,xd]的非线性变化。空间维数d等于RBF的个数。RBF是输入x和一些固定点c(称为中心)之间距离的实函数。本发明在多目标强化学习目标间的权重RBF网络中使用的高斯函数为
Figure BDA0003288467150000101
其中,||x-c||表示欧氏距离,χ代表宽度(形状参数),第二层实现加权求和。网络输出形式如下
Figure BDA0003288467150000102
其中,M为RBF的个数,Wi表示RBFφi的权重,Si代表RBFφi的参数向量。网络学习过程需要一组学习实例,每个实例都包含网络输入(插值节点的坐标向量)和目标输出(该节点中的函数值)。在学习过程中,通过使用训练样本更新,从而降低瞬时均方误差(instantaneous mean square error,MSE)。
Figure BDA0003288467150000103
n表示插补点个数,ej为第j个节点的近似误差。xj代表第j个节点的坐标,u(xj)为第j个节点的网络输出,Tj为第j个节点的短期记忆模块已知的函数值。因此,如图5所示,基于RBF的多目标DDQN强化学习计算卸载算法(RMDDQN-Learning)训练过程中通过切比雪夫尺度化方法对不同目标函数在动作a下的q-values进行尺度化,近而寻找最优的策略。同时,权重RBF网络动态更新目标的权重,近而指导多目标强化学习。
为提高学习效率,每个目标上的强化学习代理,在权重更新过程中,将系统探索环境得到的数据储存起来。然后随机采样将过去的experience和目前的experience混合,更新深度神经网络的参数。既降低了数据相关性,也使得样本可重用。
网络的更新过程如下:
如图4所示,我们采用多个double DQN(DDQN)的多目标强化学习方法来优化计算卸载过程中的多个指标。每个DDQNi有一个Qi(s;a;θi)函数,与每个目标(包括时延、能耗、负载均衡、隐私熵)一一对应。DDQN算法解决了DQN可能对Q值过拟合问题,即采用
Figure BDA0003288467150000111
替换原先的
Figure BDA0003288467150000112
来更新Q值。DDQN有两个价值函数(value function),一个用来选择动作(当前状态的策略),一个用来评估当前状态的价值。这两个价值函数的参数分别记做θ和θ。DDQN通过解耦目标Q值动作的选择和目标Q值的计算这两步,来达到消除过度估计的问题。RMDDQN-Learning算法执行过程如算法1所示,每个DDQN都通过如下损失函数迭代优化
Figure BDA0003288467150000113
在基于RBF的权重网络学习中使用梯度方法优化MSE的数值。则梯度下降第k次迭代时,RBFN的参数向量θ的通过如下调整:
θk+1=θk+Δθk+1 (24)
其中
Figure BDA0003288467150000114
是向量θ的修正,η是学习率。
Figure BDA0003288467150000115
是函数(23)在迭代k时由参数θk的值得到的梯度向量。当(23)中函数达到一个小的MSE值时,梯度更新的计算过程完成。
如图1所示,一种基于多目标强化学习的车联网计算卸载方法,包括一个移动感知车联网场景。在移动边缘计算(MEC)服务器的协助下,每个MD在一定范围内享受路边单位(RSU,roadside unit)提供的服务,并可以将计算任务卸载给与RSU相关联的MEC服务器(MES,mobile edge computing server)以增强自生的计算能力的,并获得低的任务执行时延和能耗。
图2是基于切比雪夫方法的多目标优化问题的尺度化示意图。
建立的能耗、时延、隐私熵、负载均衡模型后,采用多目标强化学习方法执行计算卸载。在多目标优化问题的奖励尺度化方法上,采取了非线性尺度化方法,即采用切比雪夫尺度化方法对多个目标值标量化。该方法克服了在一些凸的帕累托最优集合有局部凹的情况下,线性函数用于行动选择无法发现一些帕累托支配行动。
图3是本发明实施例中单目标和多目标的马尔科夫示例图。本发明将在MEC下的计算卸载问题表述为基于MDP模型的控制策略决策问题,即<S,A,P,R,γ>。与传统的马尔科夫模型不同,多目标强化学习返回的是一个向量而不是标量,即它将状态-动作对映射到一个奖励向量
Figure BDA0003288467150000121
Figure BDA0003288467150000122
其中,R1=T,R2=E,R3=-H,R4=LB。每个目标上的代理在不同的目标上优化各自目标。
图4是本发明实施例中基于RBF的多目标DDQN强化学习方法的车联网计算卸载算法框架图。多个DDQN可并行执行,从而求得多目标优化问题的帕累托最优解。即RMDDQN-Learning可使计算卸载的网络性能(时延和能耗、负载均衡)在最优的基础上,保证任务卸载的安全隐私。且本法提出的一种新颖的基于rbf神经网络的动态权重学习方法,即径向基函数神经网络来学习每个目标的价值变化,动态调整目标间的权重。
最后,图5是本发明实施例中能耗和时间对比。可看出在卸载决策优化过程中,能耗和时延呈现反相关。我们提出的RMDDQN-Learning能够在两者之间取得平衡,在所有算法中并保持了最小的能耗和时延。
实施例:
本发明通过建立完整的计算卸载方案,根据4G蜂窝网络特性,设定任务大小为[50,1000]KB。每个任务所需的CPU周期数为[0.2,1]Gigacycles,MEC的CPU频率在[1.5,4.5]GHz。在带宽为10MHz的情况下,可以根据香农公式确定MU的传输速率。在噪声功率为-172dBm的情况下,传输功率为10dBm。本次实验是在Centos 7.9上使用TensorFlow 1.10和Python 3.5来实现RMDDQN-Learning卸载算法(RBF-based multi-objective DDQNreinforcement learning computation offloading algorithm),为了进行比较,我们将其与其他基准算法进行比较。分别为NSGA-II:改进的快速精英非支配排序遗传算法,即采用遗传算法用于在MEC网络中多个目标的折中、采用基于Chebyshev Scalarization的多目标Q-learning算法、采用基于决策值的多目标DQN算法、随机生成卸载决策。如图5所示,结果表明,RMDDQN-Learning对每个目标的价值进行学习,通过RBF网络对目标间的权重做到动态适配,从而确保了多个目标间的平衡,在对多种基准算法对比中均取得最优的能效表现。

Claims (10)

1.一种基于多目标强化学习的车联网计算卸载方法,其特征在于,包括以下步骤:
S1,根据车辆计算卸载过程的成本建立成本模型;
S2,采用RMDDQN-Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化,得到多目标优化的帕累托最优解;
S3,利用切比雪夫尺度化方法将车辆计算卸载过程的成本的多个目标的奖励标量化,从而逼近帕累托最优解;
S4,采用RBF神经网络学习多个目标间的价值动态调整权重,从而得到多个目标间的最优解,根据多个目标间的最优解进行车联网计算卸载。
2.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法,其特征在于,车辆计算卸载过程的成本包括时延、能耗、隐私熵、负载均衡和车辆的移动性。
3.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法,其特征在于,设在某一时刻t0,RSU服务范围内的N个移动设备MD,表示为N={1,2,...,N},每个移动设备MD可向服务范围内的路边单元RSU发送卸载请求,MD n的卸载任务为Γn=(bn,cn,dn),其中bn表示任务的输入数据量大小,cn为完成任务所需要的总的CPU周期数,dn表示MD n可容忍的最大时延。
4.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法,其特征在于,车辆计算卸载过程任务Γn的执行的总时间T和总能耗E分别为:
Figure FDA0003288467140000011
Figure FDA0003288467140000012
In为卸载变量,w为MU n的带宽,fn为分配给MU n的计算资源,
Figure FDA0003288467140000021
Figure FDA0003288467140000022
分别为本地和卸载模式下的执行的总时延。
5.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法,其特征在于,RSU的设备的负载均衡表示为
Figure FDA0003288467140000023
Figure FDA0003288467140000024
Figure FDA0003288467140000025
Loadi(t0)表示RSU i在t0期间所有资源的综合负载,1b表示负载均衡的指标个数。
6.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法,其特征在于,将车联网场景下的计算卸载建模为一个有约束的多目标优化:
Figure FDA0003288467140000026
其中,I,f分别为卸载变量和计算资源变量,约束C1表示保证所有任务都在截止时间dn之前完成;约束C2表示任务要么在本地执行要么卸载到RSU执行;约束C3表示每个卸载任务都可以得到RSU分配的计算资源从而保障任务的顺利执行;约束C4表示分配给每个MD的计算资源不超过RSU的总计算资源量,C5为时延和服务范围约束,即任务Γn应满足执行总时间不超过最大容忍时间tp
7.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法,其特征在于,采用Tchebycheff来尺度化q向量,测量多目标解x到每个目标函数f的距离值,即
Figure FDA0003288467140000031
其中,a<p<∞,wi≥0,
Figure FDA0003288467140000032
对于状态s和动作a,将目标函数值f替换为
Figure FDA0003288467140000033
得到标量化的SQ值(SQ-value):
Figure FDA0003288467140000034
8.根据权利要求1所述的一种基于多目标强化学习的车联网计算卸载方法,其特征在于,在多目标强化学习目标间的权重RBF网络中使用的高斯函数为
Figure FDA0003288467140000035
其中,||x-c||表示欧氏距离,χ代表宽度(形状参数),第二层实现加权求和;网络输出形式如下
Figure FDA0003288467140000036
其中,M为RBF的个数,Wi表示RBFφi的权重,Si代表RBFφi的参数向量。
9.根据权利要求8所述的一种基于多目标强化学习的车联网计算卸载方法,其特征在于,在权重更新过程中,将系统探索环境得到的数据储存起来,然后随机采样将过去的experience和目前的experience混合,更新深度神经网络的参数。
10.一种基于多目标强化学习的车联网计算卸载系统,其特征在于,包括优化模块和卸载模块,优化模块用于存储根据车辆计算卸载过程的成本建立的成本模型,同时采用RMDDQN-Learning方法根据车辆计算卸载过程的成本对成本模型进行多目标优化,得到多目标优化的帕累托最优解,利用切比雪夫尺度化方法将车辆计算卸载过程的成本的多个目标的奖励标量化,从而逼近帕累托最优解;卸载模块采用RBF神经网络学习多个目标间的价值动态调整权重,从而得到多个目标间的最优解,根据多个目标间的最优解进行车联网计算卸载输出。
CN202111156213.XA 2021-09-29 2021-09-29 一种基于多目标强化学习的车联网计算卸载方法及系统 Pending CN113961204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111156213.XA CN113961204A (zh) 2021-09-29 2021-09-29 一种基于多目标强化学习的车联网计算卸载方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111156213.XA CN113961204A (zh) 2021-09-29 2021-09-29 一种基于多目标强化学习的车联网计算卸载方法及系统

Publications (1)

Publication Number Publication Date
CN113961204A true CN113961204A (zh) 2022-01-21

Family

ID=79462833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111156213.XA Pending CN113961204A (zh) 2021-09-29 2021-09-29 一种基于多目标强化学习的车联网计算卸载方法及系统

Country Status (1)

Country Link
CN (1) CN113961204A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114585006A (zh) * 2022-03-16 2022-06-03 东北大学 基于深度学习的边缘计算任务卸载和资源分配方法
CN115243217A (zh) * 2022-07-07 2022-10-25 中山大学 车联网边缘环境下基于ddqn的端边云协同调度方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114585006A (zh) * 2022-03-16 2022-06-03 东北大学 基于深度学习的边缘计算任务卸载和资源分配方法
CN114585006B (zh) * 2022-03-16 2024-03-19 东北大学 基于深度学习的边缘计算任务卸载和资源分配方法
CN115243217A (zh) * 2022-07-07 2022-10-25 中山大学 车联网边缘环境下基于ddqn的端边云协同调度方法及系统
CN115243217B (zh) * 2022-07-07 2023-07-18 中山大学 车联网边缘环境下基于ddqn的端边云协同调度方法及系统

Similar Documents

Publication Publication Date Title
CN111507601B (zh) 基于深度强化学习与区块链共识的资源优化分配决策方法
CN112882815B (zh) 基于深度强化学习的多用户边缘计算优化调度方法
CN112181666A (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法、系统、设备和可读存储介质
CN112817653A (zh) 一种基于云边端的联邦学习计算卸载计算系统及方法
CN112422644B (zh) 计算任务卸载方法及系统、电子设备和存储介质
CN111556461A (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN113543156B (zh) 基于多智能体深度强化学习的工业无线网络资源分配方法
CN113543176A (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN111132074B (zh) 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
CN113961204A (zh) 一种基于多目标强化学习的车联网计算卸载方法及系统
CN110531996B (zh) 一种多微云环境下基于粒子群优化的计算任务卸载方法
CN110213784B (zh) 一种流量预测方法及装置
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN112995343B (zh) 一种具有性能与需求匹配能力的边缘节点计算卸载方法
Yan et al. Optimal model placement and online model splitting for device-edge co-inference
CN115034390A (zh) 一种基于云边端协同的深度学习模型推理加速方法
CN116541106A (zh) 计算任务卸载方法、计算设备及存储介质
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
Shaodong et al. Multi-step reinforcement learning-based offloading for vehicle edge computing
CN111930435A (zh) 一种基于pd-bpso技术的任务卸载决策方法
CN114077482B (zh) 一种工业智能制造边缘智能计算优化方法
CN115129447A (zh) 一种工业互联网中计及条件风险价值的边缘计算任务卸载方法及计算机设备
CN114693141A (zh) 一种基于端边协同的变电站巡检方法
Wang et al. Adaptive Compute Offloading Algorithm for Metasystem Based on Deep Reinforcement Learning
Omland Deep Reinforcement Learning for Computation Offloading in Mobile Edge Computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination