CN114615265A - 边缘计算环境下基于深度强化学习的车载任务卸载方法 - Google Patents

边缘计算环境下基于深度强化学习的车载任务卸载方法 Download PDF

Info

Publication number
CN114615265A
CN114615265A CN202210225234.0A CN202210225234A CN114615265A CN 114615265 A CN114615265 A CN 114615265A CN 202210225234 A CN202210225234 A CN 202210225234A CN 114615265 A CN114615265 A CN 114615265A
Authority
CN
China
Prior art keywords
task
vehicle
time delay
agent
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210225234.0A
Other languages
English (en)
Inventor
沈国江
孔祥杰
申思
徐浩然
李响
周楷淇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210225234.0A priority Critical patent/CN114615265A/zh
Publication of CN114615265A publication Critical patent/CN114615265A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种边缘计算环境下基于深度强化学习的车载任务卸载方法。本方法首先构建任务卸载环境:基于排队论对任务到达与任务卸载建立包括车辆终端、RSU的车联网环境,计算车辆任务执行时延、RSU间传递时延以及车辆终端将任务卸载至RSU的上传时延,得到任务执行总时延;再建立优化模型:将任务的总执行时延最小作为优化目标,建立优化问题;最后基于MADDPG设计了一种行为‑评价网络算法,通过行为网络参数和评价网络参数,解决智能体间没有交互,无法运用整体信息的问题,完成车载任务卸载。本发明解决了多个区域间的负载均衡的问题,避免了任务分配不均而导致的资源浪费,提高了车联网系统整体的资源利用率和运算效率。

Description

边缘计算环境下基于深度强化学习的车载任务卸载方法
技术领域
本发明涉及为通信技术领域和计算机科学与技术的研究技术领域,尤其是涉及一种边缘计算环境下基于深度强化学习的车载任务卸载算法。
背景技术
随着信息通信技术和计算机技术的发展,道路上联网的车辆数量正在迅速增加,因此作为物联网(Internet of Things,IoT)技术的一个典型应用方向的车联网(Internetof Vehicles,IoV)技术近年来逐步朝着智能化的方向发展。通过通信和计算技术来实现智能化和交互式应用。大量的车载应用可以在IoV中实现,如辅助、自动驾驶和排管、城市交通管理和车载信息娱乐服务。虽然IoV技术前景广阔,但实现IoV应用仍面临挑战。其中一个挑战是车辆有限的车载计算能力。现有技术中只由车载终端处理任务既不能满足任务时延的要求,还会造成很大的能耗。
为了克服上述局限性,边缘计算技术(Mobile Edge Computing,MEC)是一种有前景的新兴技术手段,其概念在2014年被欧洲电信标准协会提出,并于2016年对其进行了规范化与标准化处理。通过车辆与边缘节点通信,使得资源受限的车辆用户可以将他们的计算密集型任务转移到与路边单元(Road Side Units,RSU)同步的高性能边缘服务器上处理。同时与传统的移动云计算相比,由于边缘服务器靠近车辆,任务卸载造成的网络延迟可以显著降低,从而有效地拓展车辆终端的计算能力。
然而,边缘计算技术由于车辆终端的移动性,车载任务产生的在空间和时间上的不确定性,存在多个区域间的负载不均衡,任务分配不均而资源浪费的问题。
发明内容
针对现有技术不足,本发明的提出了一种边缘计算环境下基于深度强化学习的车载任务卸载方法。
实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现的:
本发明实施例的第一方面提供了一种边缘计算环境下基于深度强化学习的车载任务卸载方法,包括如下步骤:
(1)基于排队论对任务到达与任务卸载建立包括车辆终端、路边单元的车联网环境;
(2)若车辆终端不需要路边单元决策,则任务执行总时延为零;若车辆终端需要路边单元决策,则通过停止车辆计算模式和路边单元计算模式计算得到任务执行总时延;
(3)将使任务的总执行时延最小为优化目标,建立优化目标函数;
(4)基于MADDPG网络构建行为-评价网络,根据步骤(1)构建的车联网环境,利用评价网络评估对智能体行为,优化行为策略,寻找优化目标,训练行为网络;
(5)通过将训练好的每个智能体的行动网络运用于卸载问题,完成车载任务卸载。
进一步地,将所述路边单元计算模式中的车辆任务执行时延路边单元间传递时延以及车辆终端将任务卸载至路边单元的上传时延相加,得到任务执行总时延;所述路边单元计算模式中的任务执行总时延分为本地处理的总时延和邻居处理的总时延。
进一步地,所述本地处理的总时延具体为:
在路边单元计算模式中,第m个路边单元的任务执行时延表示为:
tMECdeal=1/maxMECμ
其中,maxMECμ为路边单元上单位时间内最大处理任务量;
车辆终端k传递到本地路边单元的上传时延由上得为,
Figure BDA0003538946580000021
Figure BDA0003538946580000022
其中,dri→cloudlet表示传输的数据量,Rri→cloudlet表示从车辆终端到路边单元的传输率;w是带宽;pi,c是传输能量,hi,c是信道增益,σ2是高斯噪声,
Figure BDA0003538946580000023
为信道干扰;
路边单元RSUm的任务执行时延表示为tMECdeal=1/maxMECμ,
路边单元计算模式中本地处理的总时延为tlocalMEC=tup+tMECdeal
进一步地,所述邻居处理的总时延具体为:
车辆终端k传递到本地路边单元的上传时延由上得为,
Figure BDA0003538946580000024
Rri→cloudlet表示从车辆终端到路边单元的传输率;
所述本地路边单元传递到邻居路边单元的上传时延为,
Figure BDA0003538946580000025
Figure BDA0003538946580000026
其中,dri→cloudlet表示传输的数据量,R’ri→cloudie表示从本地路边单元传递到邻居路边单元的传输率;w是带宽;pi,c是传输能量,hi,c是信道增益,σ2是高斯噪声,
Figure BDA0003538946580000027
为信道干扰;
路边单元计算模式中邻居处理的总时延为tneighMEC=tup+tMECup+tMECdeal
进一步地,将所述停止车辆计算模式中的车辆任务执行时延、车辆终端将任务卸载至路边单元的上传时延,以及路边单元将任务卸载至停止车辆的传输时延,得到任务执行总时延;具体为:
车辆终端k将任务卸载至路边单元的上传时延表示为
Figure BDA0003538946580000031
其中,dri→cloudlet表示传输的数据量,Rri→cloudlet表示从车辆终端到路边单元的传输率。
所述从车辆终端到路边单元的传输率的公式如下:
Figure BDA0003538946580000032
其中,w是带宽,pi,c是传输能量,hi,c是信道增益,σ2是高斯噪声,信道干扰记为
Figure BDA0003538946580000033
车辆终端k的任务执行时延表示为tvehdeal=1/maxvehμ;
停止车辆计算模式的总时延tlocalveh=2*tup+tvehdeal
进一步地,所述步骤(3)中的优化目标表示为:
r(t)=-max(αn(t)*tlocalMEC,βn(t)*tneighMEC,γn(t)*tlocalveh)
其中αn(t),βn(t),γn(t)是t时刻分配给本地路边单元、邻居路边单元和停止车辆的任务数。
进一步地,所述步骤(4)具体包括以下子步骤:
(4.1)基于MADDPG网络构建一行为-评价网络;
(4.2)训练行为-评价网络,更新行动-评价网络模型参数θi,得到训练完成后的行为网络。
进一步地,所述行动-评价网络模型参数θi的更新公式为:
θ′i←γθi+(1-γ)θ′i
其中,γ为更新因子取值在0-1之间,θi为训练时行动-评价网络模型参数,θ′i为目标行动-评价网络参数。
进一步地,所述步骤(4.2)具体包括以下子步骤:
(4.2.1)初始化参数:
设置循环次数为M,初始化N个智能体,初始化环境状态动作对存储空间D容量,初始化行动最大步长max-action-length,初始化评价更新所需环境状态动作对最小对数minibatch,随机初始化网络参数当前值θ与网络参数目标值θ′,其中θ=θ′,获取智能体可采取的行为;
(4.2.2)从环境中读取N个智能体当前环境状态x;
(4.2.3)依据环境更新智能体动作状态:
取每个智能体i,将智能体当前所能观察到的状态oi(传入智能体的行为网络,得到需执行的行动ai,ai=μθi(oi),μ为参数为θ(a)的行动网络函数,并传入环境中获取每个独立智能体执行动作奖励r,执行动作后的环境状态x′,并将(x,a,r,x′)作为智能体环境状态动作对存入智能体环境状态动作对存储空间D,更新当前智能体状态x←x′。重复完成卸载任务或达到最大步长max-action-length次数;
(4.2.4)使用评价网络训练行为网络:
对于每一个智能体i,随机从智能体环境状态动作对存储空间D中取得minibatch个记录样本集合S,其中S中每个元素为(xj,aj,rj,x′j),计算参照标准:
Figure BDA0003538946580000041
其中,
Figure BDA0003538946580000042
为智能体i的以θ(c)为参数的评价网络;
Figure BDA0003538946580000043
为智能体i的第j个智能体状态动作对记录中的执行动作奖励,x′j表示第j个智能体状态动作对记录中的执行动作后的环境状态,
Figure BDA0003538946580000044
为对应x′j时的第k个智能体采取的行为,其中μ′k为第k个智能体的以θ(a)为参数的行为网络,
Figure BDA0003538946580000045
表示第j个智能体状态动作对记录时智能体k所能观察到的状态,γ为更新因子;
并通过对损失函数最小化,公式如下:
Figure BDA0003538946580000046
其中S为样本集合大小,yj为第j个记录得出的参照标准,
Figure BDA0003538946580000047
为智能体i的以θ(c)为参数的评价网络,xj表示第j个智能体状态动作对记录中的执行动作后的环境状态,
Figure BDA0003538946580000048
为对应xj时的第k个智能体采取的行为。
基于神经网络的反向传播算法获得新的评价网络参数(即Q函数参数)θ(c)′,通过梯度下降方法更新行为网络,实现对智能体的评价,优化智能体行为策略,寻找优化目标,公式如下:
Figure BDA0003538946580000051
获得新的行动网络参数(即μ函数参数)θ(a)′。直至达到预设最大迭代次数,完成更新。
(4.2.5)组合步骤(4.2.4)更新得到的θ(c)′和θ(a)′,得到θ′,通过下式得到最终的θ′,对于每一个智能体,更新其行动-评价网络参数;
更新行动-评价网络模型参数θi,公式如下:
θ′i←γθi+(1-γ)θ′i
其中,γ为更新因子取值在0-1之间,θi为当前(训练时)行动-评价网络模型参数,θ′i为目标行动-评价网络参数;
(4.2.6)重复步骤(4.2.2)~步骤(4.2.5)M次,完成行为网络的训练。
本发明实施例的第二方面提供了一种电子设备,包括存储器和处理器,其中,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的边缘计算环境下基于深度强化学习的车载任务卸载方法。
本发明实施例的第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现上述的边缘计算环境下基于深度强化学习的车载任务卸载方法。
本发明的有益效果为:为解决多个区域间的负载均衡的问题,避免了任务分配不均而导致的资源浪费,提高整体的资源利用率和运算效率。本发明提出了一种边缘计算环境下基于深度强化学习的车载任务卸载算法。
附图说明
图1为训练中的行为-评价网络模型;
图2为实际应用时的行为网络模型;
图3为任务卸载总时间随迭代次数变化情况图;
图4为任务卸载总奖励随迭代次数变化情况图;
图5为本发明装置的示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
本发明针对多区域多车辆终端场景,考虑边缘MEC服务器缺乏的问题,首先基于排队论,以车载边缘网络中所有计算任务的所有时延之和作为优化目标建立系统模型,通过基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic PolicyGradient,MADDPG)算法来缓解该问题对卸载决策制定造成的影响。本发明提出了一种边缘计算环境下基于深度强化学习的车载任务卸载方法。
本发明的主要目的是提高边缘计算条件下,计算资源的利用率并有效降低车辆终端任务的任务执行时延。本发明首先构造了一个多区域多终端的任务模型,其次引入了MADDPG来解决多智能体深度强化学习中的智能体间信息交互和整体性问题,提出了多边缘服务器场景下的基于MADDPG的任务动态卸载算法,为每个车辆终端寻找合适的任务卸载策略并分配计算资源,以降低系统执行任务的执行总时延。
本发明解决其技术问题所采取的技术方案是:先将互联网场景下的多区域多终端环境进行建模,并将问题公式化为以降低完成任务时延为主要目标,兼顾最小传输能耗的最优化问题。然后为了解决传统深度强化学习算法中遇到的智能体间信息交互和整体性问题,提出了一种改进的MADDPG算法,并基于MADDPG算法进行任务卸载算法设计,并将MEC边缘控制平台作为智能体与车联网环境进行交互。本发明不仅可以显著的提高计算资源的利用率还有效降低车辆终端的任务执行总时延。
考虑到车联网环境中计算资源分布配置的情况,本发明实施例假定每个RSU配套一个边缘服务器用于执行车辆终端卸载的计算任务,RSU与邻居RSU之间可以通过无线通信的方式传输任务。另外,本发明实施例假定由RSU来统一管理所在区域边缘服务器的网络与计算资源,并根据当前时刻每个边缘服务器的资源占用情况来做出合理的资源分配与卸载决策。最后在任务动态到达的背景下研究如何有效利用各RSU的计算资源,从而使所有终端携带的任务执行总时延最小。
下面结合附图,对本发明的边缘计算环境下基于深度强化学习的车载任务卸载方法进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
任务到达:车辆将任务传输至本区域边缘服务器的过程。
任务卸载:本区域边缘服务器将任务传输至任务执行设备的过程。
任务执行:任务执行设备执行收到边缘服务器发布的任务的过程。
(1)基于排队论对任务到达与任务卸载建立包括车辆终端、路边单元(Road SideUnits,RSU)的车联网环境;具体为:
本发明实施例考虑一个包括K个车辆和M个RSU的车联网环境,其中每个RSU通过有线通讯的方式连接一台高性能边缘服务器,各RSU边缘服务器表示为m∈{1,2...M},车辆终端表示为k∈{1,2...K},并且每个车辆携带的计算任务表示为λk,其中,k表示车辆编号。
RSU可以根据能耗与任务执行时延等情况做出对应的卸载决策,在此假设所有任务都是不可被切分的,并且只能在RSU或者停止车辆(Parked Vehicle,PV)执行。
(2)若车辆终端不需要路边单元决策,则任务执行总时延为零;若车辆终端需要路边单元决策,则通过停止车辆计算模式和路边单元计算模式计算得到任务执行总时延。具体为:
若车辆终端不需要路边单元决策,则任务执行总时延为零:本发明实施例假定车辆终端在进行任务卸载时以单个任务为单位,即同一个任务车辆终端要么在本地停止车辆上执行,要么全部卸载至边缘服务器处理。
车辆终端k的本地处理能力表示为maxvehμ,本发明实施例设定同一RSU覆盖范围内所有车辆的处理能力均相同。RSU的任务卸载比例表示为actionm,其中,m表示RSU编号共计11个离散动作,分别为[0,0.1,0.2,……1],剩余的任务分配给本地RSU。如果本地的停止车辆较多,可以承担的任务>总任务数量:则不需要进行RSU决策,放弃采集该轨迹(此时actionm等于缺省值11)。
将车联网环境中的任务执行分为停止车辆(Parked Vehicle,PV)计算模式和RSU计算模式。
将所述RSU计算模式中的车辆任务执行时延、RSU间传递时延以及车辆终端将任务卸载至RSU的上传时延相加,得到任务执行总时延。
在RSU计算模式中,第m个RSU的任务执行时延表示为
tMECdeal=1/maxMECμ
其中maxMECμ为RSU上单位时间内最大处理任务量。
车辆终端k传递到本地RSU的上传时延由上得为,
Figure BDA0003538946580000071
Figure BDA0003538946580000072
其中,w是带宽(本发明实施例中取1MB)。由于回传数据较小,所以RSU回传时延忽略不计。RSUm的任务执行时延表示为tMECdeal=1/maxMECμ,其中maxMECμ为RSU上单位时间内最大处理任务量。从车辆终端将任务卸载至RSU的时延tMECdeal由上式可得,另外由于回传数据较小,所以回传时延忽略不计。
所以RSU计算模式中本地处理的总时延为tlocalMEC=tup+tMECdeal
所述本地RSU传递到邻居RSU的上传时延为,
Figure BDA0003538946580000081
Figure BDA0003538946580000082
其中,R’ri→cloudie表示从本地路边单元传递到邻居路边单元的传输率;w是带宽(本发明实施例中取4MB)。由于回传数据较小,所以RSU回传时延忽略不计。
故RSU计算模式中邻居处理的总时延为tneighMEC=tup+tMECup+tMECdeal
将所述停止车辆(Parked Vehicle,PV)计算模式中的车辆任务执行时延、车辆终端将任务卸载至RSU的上传时延,以及RSU将任务卸载至停止车辆的传输时延,得到任务执行总时延。具体为:
车辆终端k将任务卸载至RSU的上传时延表示为
Figure BDA0003538946580000083
其中,dri→cloudlet表示传输的数据量,Rri→cloudlet表示从车辆终端到RSU的传输率。
所述从车辆终端到RSU的传输率的公式如下:
Figure BDA0003538946580000084
其中,w是带宽(本发明实施例中取1MB),pi,c是传输能量,hi,c是信道增益,σ2是高斯噪声,由于采用了非正交多接入点技术,信道干扰可记为
Figure BDA0003538946580000085
车辆终端k的任务执行时延表示为tvehdeal=1/maxvehμ,由于回传数据较小,所以回传时延忽略不计。所以PV计算模式的总时延tlocalveh=2*tup+tvehdeal
(3)将使任务的总执行时延最小为优化目标,建立优化目标函数;公式如下:
r(t)=-max(αn(t)*tlocalMEC,βn(t)*tneighMEC,γn(t)*tlocalveh)
其中αn(t),βn(t),γn(t)是t时刻分配给本地RSU、邻居RSU和车辆终端的任务数。所以本发明的优化目标为:
min(r(t))
Figure BDA0003538946580000091
c1.2 αn(t)≤maxMECμ
c1.3 βn(t)≤maxMECμ
c1.4 γn(t)≤maxvehμ
其中,约束表示所有卸载的任务均被两种模式处理,约束c1.2、c1.3、c1.4表示本地计算模式与边缘计算模式产生的任务量都需要小于各个处理器的最大处理能力。优化目标函数是一个NP hard问题。在任务数量不大的时候,可以通过遍历寻找最优解。但是此问题的解空间会随着任务数量的增长而迅速增加。可以将此优化问题转化为马尔科夫决策问题,基于深度强化学习算法来解决。
(4)基于MADDPG网络构建行为-评价网络,根据步骤(1)构建的车联网环境,利用评价网络评估对智能体行为,优化行为策略,训练行为网络;具体为:
(4.1)基于MADDPG网络设计了一种行为-评价网络,得到行为网络参数θ(a)和评价网络参数θ(c),通过该参数解决智能体间没有交互,无法运用整体信息的问题,其中θ(a)用来根据智能体个体观测的环境状态选择智能体个体的行动,θ(c)获得当前的总体的环境,状态和全体智能体采取的行动并生成环境状态动作对的智能体个体价值来评估智能体个体行为的优劣,优化行为策略,其中第i个智能体的参数θ(a)和θ(c)统称为θi
(4.2)如图1~2所示,训练行为-评价网络,更新行动-评价网络模型参数θi,具体包括以下子步骤:
(4.2.1)初始化参数:
设置循环次数为M,初始化N个智能体,初始化环境状态动作对存储空间D容量,初始化行动最大步长max-action-length,初始化评价更新所需环境状态动作对最小对数minibatch,随机初始化网络参数当前值θ与网络参数目标值θ′,其中θ=θ′,获取智能体可采取的行为。所述一次循环为一次N个智能体参与的完整的任务卸载训练。
(4.2.2)从环境中读取N个智能体当前环境状态x;
(4.2.3)依据环境更新智能体动作状态:
取每个智能体i,将智能体当前所能观察到的状态oi(为N个智能体当前环境状态的一部分)传入智能体的行为网络,得到需执行的行动ai,ai=μθi(oi),μ为参数为θ(a)的行动网络函数,并传入环境中获取每个独立智能体执行动作奖励r,执行动作后的环境状态x′,并将(x,a,r,x′)作为智能体状态动作对存入智能体状态动作对存储空间D,更新当前智能体状态x←x′。重复完成卸载任务或达到最大步长max-action-length次数。
(4.2.4)使用评价网络训练行为网络:
对于每一个智能体i,随机从智能体状态动作对存储空间D中取得minibatch个记录样本集合S,其中S中第j个记录为(xj,aj,rj,x′j),计算参照标准:
Figure BDA0003538946580000101
其中,
Figure BDA0003538946580000102
为智能体i的以θ(c)为参数的评价网络。
Figure BDA0003538946580000103
为智能体i的第j个智能体状态动作对记录中的执行动作奖励,x′j表示第j个智能体状态动作对记录中的执行动作后的环境状态,
Figure BDA0003538946580000104
为对应x′j时的第k个智能体采取的行为,其中μ′k为第k个智能体的以θ(a)为参数的行为网络,
Figure BDA0003538946580000105
表示第j个智能体状态动作对记录时智能体k所能观察到的状态,γ为更新因子取值在0-1之间(下标i表示第i个智能体的,上标j表示第j个智能体状态动作对)。
并通过对损失函数最小化,公式如下:
Figure BDA0003538946580000106
其中S为样本集合大小,yj为第j个记录得出的参照标准,
Figure BDA0003538946580000107
为智能体i的以θ(c)为参数的评价网络,xj表示第j个智能体状态动作对记录中的执行动作后的环境状态,
Figure BDA0003538946580000108
为对应xj时的第k个智能体采取的行为。
基于神经网络的反向传播算法获得新的评价网络参数(即Q函数参数)θ(c)′,通过梯度下降方法更新行为网络,实现对智能体的评价,优化智能体行为策略,寻找优化目标,公式如下:
Figure BDA0003538946580000109
获得新的行动网络参数(即μ函数参数)θ(a)′。直至达到预设最大迭代次数,完成更新。
(4.2.5)组合步骤(4.2.4)更新得到的θ(c)′和θ(a)′,得到θ′,通过下式得到最终的θ′,对于每一个智能体,更新其行动-评价网络参数。
更新行动-评价网络模型参数θi,公式如下:
θ′i←γθi+(1-γ)θ′i
其中,γ为更新因子取值在0-1之间,θi为当前(训练时)行动-评价网络模型参数,θ′i为目标行动-评价网络参数。
(4.2.6)重复步骤(4.2.2)~步骤(4.2.5)M次,完成行为网络的训练。
(5)通过将训练好的每个智能体的行动网络运用于卸载问题,完成车载任务卸载。
基于行为-评价网络算法进行任务卸载算法的设计,并将每个区域的RSU作为独立的智能体,与车联网环境进行交互。
如图3~4所示,本发明实施例中用到九个不同智能体进行任务卸载问题训练,其中横坐标表示(4.2.1)中所述的循环次数,实验总共循环训练了6000次,纵坐标表示每个智能体任务卸载的总时间(毫秒),不同灰度曲线表示不同智能体,从图中可以看出,所有智能体的总任务卸载时间明显下降,并在最终趋于稳定,即找到了任务卸载问题的最优解。
本发明实施例中用到九个不同智能体进行任务卸载问题训练,其中横坐标表示(4.2.1)中所述的循环次数,实验总共循环训练了6000次,纵坐标表示完成一次任务卸载问题的所有智能体执行动作奖励r之和,从图中可以看出,所有智能体执行动作奖励r之和明显增加,并最终趋于稳定,即找到了任务卸载问题的最优解。
与前述边缘计算环境下基于深度强化学习的车载任务卸载方法的实施例相对应,本发明还提供了边缘计算环境下基于深度强化学习的车载任务卸载装置的实施例。
参见图5,本发明实施例提供的一种边缘计算环境下基于深度强化学习的车载任务卸载装置,包括一个或多个处理器,用于实现上述实施例中的边缘计算环境下基于深度强化学习的车载任务卸载方法。
本发明边缘计算环境下基于深度强化学习的车载任务卸载装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明边缘计算环境下基于深度强化学习的车载任务卸载装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的边缘计算环境下基于深度强化学习的车载任务卸载方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (10)

1.一种边缘计算环境下基于深度强化学习的车载任务卸载方法,其特征在于,包括如下步骤:
(1)基于排队论对任务到达与任务卸载建立包括车辆终端、路边单元的车联网环境;
(2)若车辆终端不需要路边单元决策,则任务执行总时延为零;若车辆终端需要路边单元决策,则通过停止车辆计算模式和路边单元计算模式计算得到任务执行总时延;
(3)将使任务的总执行时延最小为优化目标,建立优化目标函数;
(4)基于MADDPG网络构建行为-评价网络,根据步骤(1)构建的车联网环境,利用评价网络评估对智能体行为,优化行为策略,寻找优化目标,训练行为网络;
(5)通过将训练好的每个智能体的行动网络运用于卸载问题,完成车载任务卸载。
2.根据权利要求1所述的边缘计算环境下基于深度强化学习的车载任务卸载方法,其特征在于,将所述路边单元计算模式中的车辆任务执行时延路边单元间传递时延以及车辆终端将任务卸载至路边单元的上传时延相加,得到任务执行总时延;所述路边单元计算模式中的任务执行总时延分为本地处理的总时延和邻居处理的总时延。
3.根据权利要求2所述的边缘计算环境下基于深度强化学习的车载任务卸载方法,其特征在于,所述本地处理的总时延具体为:
在路边单元计算模式中,第m个路边单元的任务执行时延表示为:
tMECdeal=1/maxMECμ
其中,maxMECμ为路边单元上单位时间内最大处理任务量;
车辆终端k传递到本地路边单元的上传时延由上得为,
Figure FDA0003538946570000011
Figure FDA0003538946570000012
其中,dri→cloudlet表示传输的数据量,Rri→cloudlet表示从车辆终端到路边单元的传输率;w是带宽;pi,c是传输能量,hi,c是信道增益,σ2是高斯噪声,
Figure FDA0003538946570000013
为信道干扰;
路边单元RSUm的任务执行时延表示为tMECdeal=1/maxMECμ,
路边单元计算模式中本地处理的总时延为tlocalMEC=tup+tMECdeal
4.根据权利要求2所述的边缘计算环境下基于深度强化学习的车载任务卸载方法,其特征在于,所述邻居处理的总时延具体为:
车辆终端k传递到本地路边单元的上传时延由上得为,
Figure FDA0003538946570000021
Rri→cloudlet表示从车辆终端到路边单元的传输率;
所述本地路边单元传递到邻居路边单元的上传时延为,
Figure FDA0003538946570000022
Figure FDA0003538946570000023
其中,dri→cloudlet表示传输的数据量,R’ri→cloudie表示从本地路边单元传递到邻居路边单元的传输率;w是带宽;pi,c是传输能量,hi,c是信道增益,σ2是高斯噪声,
Figure FDA0003538946570000024
为信道干扰;
路边单元计算模式中邻居处理的总时延为tneighMEC=tup+tMECup+tMECdeal
5.根据权利要求2所述的边缘计算环境下基于深度强化学习的车载任务卸载方法,其特征在于,将所述停止车辆计算模式中的车辆任务执行时延、车辆终端将任务卸载至路边单元的上传时延,以及路边单元将任务卸载至停止车辆的传输时延,得到任务执行总时延;具体为:
车辆终端k将任务卸载至路边单元的上传时延表示为
Figure FDA0003538946570000025
其中,dri→cloudlet表示传输的数据量,Rri→cloudlet表示从车辆终端到路边单元的传输率。
所述从车辆终端到路边单元的传输率的公式如下:
Figure FDA0003538946570000026
其中,w是带宽,pi,c是传输能量,hi,c是信道增益,σ2是高斯噪声,信道干扰记为
Figure FDA0003538946570000027
车辆终端k的任务执行时延表示为tvehdeal=1/maxvehμ;
停止车辆计算模式的总时延tlocalveh=2*tup+tvehdeal
6.根据权利要求2所述的边缘计算环境下基于深度强化学习的车载任务卸载方法,其特征在于,所述步骤(3)中的优化目标表示为:
r(t)=-max(αn(t)*tlocalMEC,βn(t)*tneighMEC,γn(t)*tlocalveh)
其中αn(t),βn(t),γn(t)是t时刻分配给本地路边单元、邻居路边单元和停止车辆的任务数。
7.根据权利要求1所述的边缘计算环境下基于深度强化学习的车载任务卸载方法,其特征在于,所述步骤(4)具体包括以下子步骤:
(4.1)基于MADDPG网络构建一行为-评价网络;
(4.2)训练行为-评价网络,更新行动-评价网络模型参数θi,得到训练完成后的行为网络。
8.根据权利要求6所述的边缘计算环境下基于深度强化学习的车载任务卸载方法,其特征在于,所述行动-评价网络模型参数θi的更新公式为:
θ′i←γθi+(1-γ)θ′i
其中,γ为更新因子取值在0-1之间,θi为训练时行动-评价网络模型参数,θ′i为目标行动-评价网络参数。
9.根据权利要求6所述的边缘计算环境下基于深度强化学习的车载任务卸载方法,其特征在于,所述步骤(4.2)具体包括以下子步骤:
(4.2.1)初始化参数:
设置循环次数为M,初始化N个智能体,初始化环境状态动作对存储空间D容量,初始化行动最大步长max-action-length,初始化评价更新所需环境状态动作对最小对数minibatch,随机初始化网络参数当前值θ与网络参数目标值θ′,其中θ=θ′,获取智能体可采取的行为;
(4.2.2)从环境中读取N个智能体当前环境状态x;
(4.2.3)依据环境更新智能体动作状态:
取每个智能体i,将智能体当前所能观察到的状态oi(传入智能体的行为网络,得到需执行的行动ai,ai=μθi(oi),μ为参数为θ(a)的行动网络函数,并传入环境中获取每个独立智能体执行动作奖励r,执行动作后的环境状态x′,并将(x,a,r,x′)作为智能体环境状态动作对存入智能体环境状态动作对存储空间D,更新当前智能体状态x←x′。重复完成卸载任务或达到最大步长max-action-length次数;
(4.2.4)使用评价网络训练行为网络:
对于每一个智能体i,随机从智能体环境状态动作对存储空间D中取得minibatch个记录样本集合S,其中S中每个元素为(xj,aj,rj,x′j),计算参照标准:
Figure FDA0003538946570000041
其中,
Figure FDA0003538946570000042
为智能体i的以θ(c)为参数的评价网络;
Figure FDA0003538946570000049
为智能体i的第j个智能体状态动作对记录中的执行动作奖励,x′j表示第j个智能体状态动作对记录中的执行动作后的环境状态,
Figure FDA0003538946570000043
为对应x′j时的第k个智能体采取的行为,其中μ′k为第k个智能体的以θ(a)为参数的行为网络,
Figure FDA0003538946570000044
表示第j个智能体状态动作对记录时智能体k所能观察到的状态,γ为更新因子;
并通过对损失函数最小化,公式如下:
Figure FDA0003538946570000045
其中S为样本集合大小,yj为第j个记录得出的参照标准,
Figure FDA0003538946570000046
为智能体i的以θ(c)为参数的评价网络,xj表示第j个智能体状态动作对记录中的执行动作后的环境状态,
Figure FDA0003538946570000047
为对应xj时的第k个智能体采取的行为。
基于神经网络的反向传播算法获得新的评价网络参数(即Q函数参数)θ(c)′,通过梯度下降方法更新行为网络,实现对智能体的评价,优化智能体行为策略,寻找优化目标,公式如下:
Figure FDA0003538946570000048
获得新的行动网络参数(即μ函数参数)θ(a)′。直至达到预设最大迭代次数,完成更新。
(4.2.5)组合步骤(4.2.4)更新得到的θ(c)′和θ(a)′,得到θ′,通过下式得到最终的θ′,对于每一个智能体,更新其行动-评价网络参数;
更新行动-评价网络模型参数θi,公式如下:
θ′i←γθi+(1-γ)θ′i
其中,γ为更新因子取值在0-1之间,θi为当前(训练时)行动-评价网络模型参数,θ′i为目标行动-评价网络参数;
(4.2.6)重复步骤(4.2.2)~步骤(4.2.5)M次,完成行为网络的训练。
10.一种电子设备,包括存储器和处理器,其中,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-8任一项所述的边缘计算环境下基于深度强化学习的车载任务卸载方法。
CN202210225234.0A 2022-03-09 2022-03-09 边缘计算环境下基于深度强化学习的车载任务卸载方法 Pending CN114615265A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210225234.0A CN114615265A (zh) 2022-03-09 2022-03-09 边缘计算环境下基于深度强化学习的车载任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210225234.0A CN114615265A (zh) 2022-03-09 2022-03-09 边缘计算环境下基于深度强化学习的车载任务卸载方法

Publications (1)

Publication Number Publication Date
CN114615265A true CN114615265A (zh) 2022-06-10

Family

ID=81860130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210225234.0A Pending CN114615265A (zh) 2022-03-09 2022-03-09 边缘计算环境下基于深度强化学习的车载任务卸载方法

Country Status (1)

Country Link
CN (1) CN114615265A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115297171A (zh) * 2022-07-08 2022-11-04 南京邮电大学 一种蜂窝车联网分级决策的边缘计算卸载方法及系统
CN115964178A (zh) * 2023-01-09 2023-04-14 江南大学 一种车联网用户计算任务调度方法、装置及边缘服务网络
CN116153090A (zh) * 2022-10-25 2023-05-23 浙江特锐讯智能科技有限公司 一种全轨迹精准化车牌识别管理方法及系统
CN117749800A (zh) * 2024-02-20 2024-03-22 四川雷克斯智慧科技股份有限公司 新能源发电侧实现边缘数据存储与传输的方法和相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112822234A (zh) * 2020-12-29 2021-05-18 华北电力大学 一种车联网中基于深度强化学习的任务卸载方法
CN113296845A (zh) * 2021-06-03 2021-08-24 南京邮电大学 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法
WO2021233053A1 (zh) * 2020-05-22 2021-11-25 华为技术有限公司 计算卸载的方法和通信装置
CN114116047A (zh) * 2021-11-09 2022-03-01 吉林大学 一种基于强化学习的车载计算密集型应用的v2i卸载方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021233053A1 (zh) * 2020-05-22 2021-11-25 华为技术有限公司 计算卸载的方法和通信装置
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112822234A (zh) * 2020-12-29 2021-05-18 华北电力大学 一种车联网中基于深度强化学习的任务卸载方法
CN113296845A (zh) * 2021-06-03 2021-08-24 南京邮电大学 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法
CN114116047A (zh) * 2021-11-09 2022-03-01 吉林大学 一种基于强化学习的车载计算密集型应用的v2i卸载方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAIXIA PENG 等: ""Multi-Agent Reinforcement Learning Based Resource Management in MEC- and UAV-Assisted Vehicular Networks"", 《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》, 10 November 2020 (2020-11-10), pages 131 - 141, XP011826444, DOI: 10.1109/JSAC.2020.3036962 *
ZHAOLONG NING 等: ""A Cooperative Partial Computation Offloading Scheme for Mobile Edge Computing Enabled Internet of Things"", 《IEEE INTERNET OF THINGS JOURNAL》, 4 September 2018 (2018-09-04), pages 4804 *
王云鹏: ""基于深度强化学习的移动边缘计算的资源优化方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 February 2022 (2022-02-15) *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115297171A (zh) * 2022-07-08 2022-11-04 南京邮电大学 一种蜂窝车联网分级决策的边缘计算卸载方法及系统
CN115297171B (zh) * 2022-07-08 2023-05-30 南京邮电大学 一种蜂窝车联网分级决策的边缘计算卸载方法及系统
CN116153090A (zh) * 2022-10-25 2023-05-23 浙江特锐讯智能科技有限公司 一种全轨迹精准化车牌识别管理方法及系统
CN116153090B (zh) * 2022-10-25 2024-03-29 浙江特锐讯智能科技有限公司 一种全轨迹精准化车牌识别管理方法及系统
CN115964178A (zh) * 2023-01-09 2023-04-14 江南大学 一种车联网用户计算任务调度方法、装置及边缘服务网络
CN115964178B (zh) * 2023-01-09 2024-05-31 江南大学 一种车联网用户计算任务调度方法、装置及边缘服务网络
CN117749800A (zh) * 2024-02-20 2024-03-22 四川雷克斯智慧科技股份有限公司 新能源发电侧实现边缘数据存储与传输的方法和相关装置
CN117749800B (zh) * 2024-02-20 2024-05-03 四川雷克斯智慧科技股份有限公司 新能源发电侧实现边缘数据存储与传输的方法和相关装置

Similar Documents

Publication Publication Date Title
CN114615265A (zh) 边缘计算环境下基于深度强化学习的车载任务卸载方法
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN111132175B (zh) 一种协同计算卸载和资源分配方法及应用
CN113346944A (zh) 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN113268341A (zh) 电网边缘计算任务的分配方法、装置、设备和存储介质
CN116541106B (zh) 计算任务卸载方法、计算设备及存储介质
CN115277845A (zh) 基于多智能体近端策略的车联网分布式边缘缓存决策方法
Zhang et al. Deep reinforcement learning-based offloading decision optimization in mobile edge computing
CN115134242A (zh) 一种基于深度强化学习策略的车载计算任务卸载方法
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN117221951A (zh) 车载边缘环境下基于深度强化学习的任务卸载方法
Bhardwaj et al. Deep Q‐learning based resource allocation in industrial wireless networks for URLLC
CN115297171A (zh) 一种蜂窝车联网分级决策的边缘计算卸载方法及系统
CN116579418A (zh) 联邦边缘学习环境下模型分割优化的隐私数据保护方法
CN114449584B (zh) 基于深度强化学习的分布式计算卸载方法及装置
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
CN113726894B (zh) 一种基于深度强化学习的多车应用计算卸载方法及终端
CN114827947A (zh) 车联网安全计算卸载及资源分配方法、计算机设备及终端
CN114519306A (zh) 一种去中心化的终端节点网络模型训练方法及系统
Zheng et al. Mobility-aware split-federated with transfer learning for vehicular semantic communication networks
Mu et al. Deep reinforcement learning based adaptive threshold multi-tasks offloading approach in mec
WO2020199914A1 (zh) 训练神经网络的方法和装置
CN116321181A (zh) 一种多无人机辅助边缘计算的在线轨迹及资源优化方法
CN116260821A (zh) 基于深度强化学习和区块链的分布式并行计算卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination