CN113726894A - 一种基于深度强化学习的多车应用计算卸载方法及终端 - Google Patents

一种基于深度强化学习的多车应用计算卸载方法及终端 Download PDF

Info

Publication number
CN113726894A
CN113726894A CN202111019147.1A CN202111019147A CN113726894A CN 113726894 A CN113726894 A CN 113726894A CN 202111019147 A CN202111019147 A CN 202111019147A CN 113726894 A CN113726894 A CN 113726894A
Authority
CN
China
Prior art keywords
dnn
target
network
intelligent networked
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111019147.1A
Other languages
English (en)
Other versions
CN113726894B (zh
Inventor
林兵
林凯
卢宇
黄志高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Normal University
Original Assignee
Fujian Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Normal University filed Critical Fujian Normal University
Priority to CN202111019147.1A priority Critical patent/CN113726894B/zh
Publication of CN113726894A publication Critical patent/CN113726894A/zh
Application granted granted Critical
Publication of CN113726894B publication Critical patent/CN113726894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Small-Scale Networks (AREA)

Abstract

本发明公开一种基于深度强化学习的多车应用计算卸载方法及终端,基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络;根据所述车辆边缘计算网络确定计算卸载问题,并根据所述计算卸载问题建立马尔科夫决策过程模型;基于所述马尔科夫决策过程模型使用SA‑MADDPG算法确定卸载策略,并执行所述卸载策略,马尔科夫决策过程模型能够准确地描述多车计算卸载的过程,结合模拟退火的多智能体深度确定性策略梯度算法能够避免陷入局部最优解,加快收敛速度,有效地适应动态的多车环境,以此确定出最优的卸载策略,从而降低卸载失败率。

Description

一种基于深度强化学习的多车应用计算卸载方法及终端
技术领域
本发明涉及边缘计算技术领域,尤其涉及一种基于深度强化学习的多车应用计算卸载方法及终端。
背景技术
随着物联网(Internet of Things,IoT)技术的快速发展,车辆逐渐成为一种智能、互联、自主的终端,即智能网联汽车(Connected and Automat-ed Vehicles,CAVs)。CAVs集成了人工智能辅助(Artificial Intelligence-aided,AI-aided)的信息和通信技术,在构建更安全、更智能的交通系统(Intelligent Transportation System,ITS)的过程中发挥着关键作用。在移动通信技术的帮助下,CAVs采用车辆到一切通信(Vehicle toEvery-thing,V2X)与基础设施或者其他CAVs互联,通过它们间的信息交换,CAVs可以全面感知周边环境,有效改善人为失误造成的交通事故,缓解交通拥堵。
CAVs的发展,推动了基于深度神经网络(Deep Neural Network-based,DNN-based)的车载新型应用的出现,如自动驾驶、群智感知、虚拟现实游戏、增强现实和视频娱乐等。这些应用通常是计算密集型和时延敏感型的,需要高性能的计算资源才能在响应截止期内被执行完成。虽然CAVs都配备了具有计算能力的车载设备,但通常无法满足新型应用的计算性能要求,其服务质量(Quality of Service,QoS)无法得到保障。这对CAVs实时、可靠的车辆服务提出了重大挑战。
计算卸载是解决上述挑战的关键技术之一。基于DNN的应用可以划分为多个DNN层。通过计算卸载来扩展CAVs的计算能力,这些DNN层可以卸载到计算资源丰富的高性能服务器上。最初,研究人员提出了基于移动云计算(Mobile Cloud Computing,MCC)的计算卸载范式。它可以充分利用具有强大计算资源的云服务器,为车辆提供高效的计算服务。但是,由于传统的云服务器距离CAVs很远,远程卸载会导致严重的数据传输延迟,降低QoS。因此,MCC不能很好地满足基于DNN应用的实时响应要求。
为了克服上述MCC的缺点,近年来出现了基于车辆边缘计算(vehicular edgecomputing,VEC)的计算卸载范式,即移动边缘计算(mobile edge computing,MEC)在车辆场景中的应用。在VEC网络中,路边服务器(Roadside Edge Servers,RES)可以部署在具有计算资源的路边单位(Roadside Units,RSUs)中来扩展CAVs的计算能力,来向CAVs提供近端服务。通过将DNN层卸载到RSUs,基于DNN的应用程序的执行延迟可以显著减少。
因此,在VEC环境下考虑多车的计算卸载问题为满足CAVs应用服务需求提供了一个良好的解决方案。但是,针对VEC环境下面向卸载失败率的多车计算卸载策略问题,目前的研究工作尚未形成一个完整有效的解决方案。
发明内容
本发明所要解决的技术问题是:提供一种基于深度强化学习的多车应用计算卸载方法及终端,能够降低卸载失败率。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种基于深度强化学习的多车应用计算卸载方法,包括:
基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络;
根据所述车辆边缘计算网络确定计算卸载问题,并根据所述计算卸载问题建立马尔科夫决策过程模型;
基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行所述卸载策略。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种基于深度强化学习的多车应用计算卸载终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络;
根据所述车辆边缘计算网络确定计算卸载问题,并根据所述计算卸载问题建立马尔科夫决策过程模型;
基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行所述卸载策略。
本发明的有益效果在于:通过构建车辆边缘计算网络,根据车辆边缘计算网络确定计算卸载问题,并根据其建立马尔科夫决策过程模型,基于马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行卸载策略,由于在车载边缘计算网络,CAVs需要综合考虑到DNN层间的数据依赖关系、时变的任务处理时延、有限的RSU计算资源以及车辆移动性来确定卸载决策,且多车间的卸载决策会相互影响,MDP(Markov Decision Process,马尔科夫决策过程)模型能够准确地描述多车计算卸载的过程,结合模拟退火的多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient Combinedwith Simulated Anneling,SA-MADDPG)能够避免陷入局部最优解,加快收敛速度,有效地适应动态的多车环境,以此确定出最优的卸载策略,从而降低卸载失败率。
附图说明
图1为本发明实施例的一种基于深度强化学习的多车应用计算卸载方法的步骤流程图;
图2为本发明实施例的一种基于深度强化学习的多车应用计算卸载终端的结构示意图;
图3为本发明实施例基于深度强化学习的多车应用计算卸载方法中的车辆边缘计算网络示意图;
图4为本发明实施例基于深度强化学习的多车应用计算卸载方法中的VEC环境下多车计算卸载的实例示意图;
图5为本发明实施例基于深度强化学习的多车应用计算卸载方法中的VEC环境下基于SA-MADDPG的多车计算卸载框架示意图;
图6为本发明实施例基于深度强化学习的多车应用计算卸载方法中的动作者网络的结构示意图;
图7为本发明实施例基于深度强化学习的多车应用计算卸载方法中的评论家网络的结构示意图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,本发明实施例提供了一种基于深度强化学习的多车应用计算卸载方法,包括:
基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络;
根据所述车辆边缘计算网络确定计算卸载问题,并根据所述计算卸载问题建立马尔科夫决策过程模型;
基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行所述卸载策略。
从上述描述可知,本发明的有益效果在于:通过构建车辆边缘计算网络,根据车辆边缘计算网络确定计算卸载问题,并根据其建立马尔科夫决策过程模型,基于马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行卸载策略,由于在车载边缘计算网络,CAVs需要综合考虑到DNN层间的数据依赖关系、时变的任务处理时延、有限的RSU计算资源以及车辆移动性来确定卸载决策,且多车间的卸载决策会相互影响,MDP(MarkovDecision Process,马尔科夫决策过程)模型能够准确地描述多车计算卸载的过程,结合模拟退火的多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic PolicyGradient Combined with Simulated Anneling,SA-MADDPG)能够避免陷入局部最优解,加快收敛速度,有效地适应动态的多车环境,以此确定出最优的卸载策略,从而降低卸载失败率。
进一步地,每一所述DNN应用包括多个DNN层;
所述基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络包括:
确定多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用;
根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建DNN应用模型;
根据所述多个智能网联汽车、所述多个路边单位、所述多个DNN应用和所述多个DNN层建立与所述多个智能网联汽车对应的第一DNN层队列以及与所述多个路边单位对应的第二DNN层队列;
根据所述多个智能网联汽车、所述多个路边单位构建所述多个智能网联汽车与所述多个路边单位的通信模型;
根据所述多个智能网联汽车、所述多个路边单位以及所述多个DNN层构建所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型;
根据所述DNN应用模型、所述第一DNN层队列、所述第二DNN层队列、所述通信模型以及所述计算模型生成车辆边缘计算网络。
由上述描述可知,根据构建的DNN应用模型、第一DNN层队列、第二DNN层队列、通信模型以及计算模型生成车辆边缘计算网络,准确构建了车辆边缘计算网络,便于后续基于车辆边缘计算网络确定计算卸载问题,从而提高确定计算卸载问题的准确性。
进一步地,所述根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建DNN应用模型包括:
根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建所述DNN应用模型Ai,j,k
Ai,j,k={Gi,j,k,di,j,k},i∈{1,2,...,n},j∈{1,2,...,z},k∈{1,2,...,t};
式中,i表示所述DNN应用对应的所述智能网联汽车的标识,j表示所述DNN应用的类型,k表示所述DNN应用对应的生成时间片,Gi,j,k表示由所述DNN应用构建的有向无环图,di,j,k表示所述DNN应用的可容忍时间片个数。
由上述描述可知,根据多个智能网联汽车以及与多个智能网联汽车对应的多个DNN应用构建DNN应用模型,DNN应用模型体现了智能网联汽车与DNN应用之间的关系。
进一步地,所述根据所述多个智能网联汽车、所述多个路边单位构建所述多个智能网联汽车与所述多个路边单位的通信模型包括:
定义信道带宽、信道衰落因子、高斯白噪声功率以及路径损耗因子;
获取所述多个智能网联汽车的传输功率以及所述多个路边单位的通信范围;
基于所述多个智能网联汽车、所述多个路边单位、所述信道带宽、所述信道衰落因子、所述高斯白噪声功率、所述路径损耗因子、所述传输功率以及所述通信范围构建所述多个智能网联汽车与所述多个路边单位的通信模型;
所述通信模型为:
Figure BDA0003241124640000061
式中,
Figure BDA0003241124640000062
表示在第k个时间片,第i个智能网联汽车与第j个路边单位的数据传输率,B表示信道带宽,h表示信道衰落因子,ptr表示所述多个智能网联汽车的传输功率,x表示所述高斯白噪声功率,
Figure BDA0003241124640000064
表示所述路径损耗因子,
Figure BDA0003241124640000063
表示第i个智能网联汽车与第j个路边单位的距离,r表示所述多个路边单位的通信范围。
由上述描述可知,由于在路边单位的通信范围内,智能网联汽车可以通过车辆与基础设施(Vehicle to Infrastructure,V2I)通信传输DNN层数据至路边单位处理以充分利用邻域内路边单位的计算资源,通信模型能够准确描述在某个时间片,任一智能网联汽车与任一路边单位的数据传输率。
进一步地,所述根据所述多个智能网联汽车、所述多个路边单位以及所述多个DNN层构建所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型包括:
获取所述多个智能网联汽车对应的第一算力以及所述多个路边单位对应的第二算力;
确定预设DNN层数据处理密度;
基于所述第一算力、预设时间片长度、所述预设DNN层数据处理密度确定所述多个智能网联汽车在任一时间片内对应的第一数据处理总量;
基于所述第二算力、预设时间片长度、所述预设DNN层数据处理密度确定所述多个智能网联汽车在任一时间片内对应的第二数据处理总量;
根据所述第一数据处理总量和所述第二数据处理总量得到所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型;
所述第一数据处理总量εv为:
Figure BDA0003241124640000071
式中,fv表示所述第一算力,l表示预设时间片长度,c表示所述预设DNN层数据处理密度;
所述第二数据处理总量εr为:
Figure BDA0003241124640000073
式中,fr表示所述第二算力。
由上述描述可知,计算模型能够准确描述智能网联汽车与路边单位的计算能力,即在当个时间片内所能处理的数据总量。
进一步地,所述根据所述车辆边缘计算网络确定计算卸载问题包括:
所述计算卸载问题为:
Figure BDA0003241124640000072
式中,Minimize表示最小化,AFR表示所述多个智能网联汽车的平均卸载失败率,FRi表示第i个智能网联汽车的卸载失败率,n表示所述多个智能网联汽车的数量。
由上述描述可知,确定计算卸载问题,该计算卸载问题为最小化智能网联汽车的平均卸载失败率,便于基于计算卸载问题进行优化,保证了降低卸载失败率的实现。
进一步地,所述根据所述计算卸载问题建立马尔科夫决策过程模型包括:
获取目标时间片内目标智能网联汽车对应的状态si(k)以及对应的动作ai(k);
根据所述目标智能网联汽车对应的状态确定所述多个智能网联汽车的联合状态S(k);
根据所述目标智能网联汽车对应的动作确定所述多个智能网联汽车的联合动作A(k);
获取目标时间片内目标智能网联汽车对应的卸载失败应用集合Δi(k)以及卸载成功应用集合Υi(k);
根据所述卸载失败应用集合以及卸载成功应用集合确定目标智能网联汽车的奖励函数ri(k);
根据所述目标智能网联汽车的奖励函数确定所述多个智能网联汽车的联合奖励R(k);
根据所述联合状态、所述联合动作、所述联合奖励生成马尔科夫决策过程模型;
所述si(k)为:
Figure BDA0003241124640000081
式中,k表示第k个时间片,
Figure BDA0003241124640000082
表示所述目标智能网联汽车的二维坐标,oi(k)表示所述智能网联汽车与所述路边单位在通信范围内的数据传输率;
所述S(k)为:
S(k)={s1(k),s2(k),...,sn(k)};
所述ai(k)为:
ai(k)∈{1,2,...,m+1};
式中,{1,2,…,m}表示所述目标智能网联汽车选择卸载所述DNN层至第j个路边单位,m+1表示所述目标智能网联汽车本地处理所述DNN层;
所述A(k)为:
A(k)={a1(k),a2(k),...,an(k)};
所述Δi(k)为:
Δi(k)={A1,A2,...,Af};
所述Υi(k)为:
Υi(k)={A1,A2,...,Au};
所述ri(k)为:
Figure BDA0003241124640000091
所述R(k)为:
R(k)={r1(k),r2(k),...,rn(k)}。
由上述描述可知,将马尔科夫决策过程模型引入计算卸载问题,考虑了智能体、状态空间、动作空间和奖励四个关键因素,能够准确描述多车计算卸载的过程。
进一步地,所述基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行所述卸载策略包括:
设计与所述智能网联汽车对应的动作者网络;
设计与所述动作者网络对应的评论家网络;
将所述目标智能网联汽车对应的状态输入至所述动作者网络得到最佳动作,根据模拟退火策略从预设随机动作与所述最佳动作之间选择得到目标动作,并执行所述目标动作对应的卸载策略,返回与所述卸载策略对应的奖励和新状态;
根据所述目标智能网联汽车对应的状态、所述目标动作、所述奖励和所述新状态生成状态转移过程,并将所述状态转移过程保存至回放记忆库;
将所述多个智能网联汽车的联合状态和联合动作输入至所述评论家网络得到Q值;
根据Q值更新所述动作者网络及所述评论家网络。
由上述描述可知,将目标智能网联汽车对应的状态输入至动作者网络得到最佳动作,根据模拟退火策略从预设随机动作与最佳动作之间选择得到目标动作,能有效地适应动态的多车环境,且使用模拟退火策略用于动作的选择,避免陷入局部最优解,加快收敛速度,提高了选择卸载策略的准确性。
进一步地,所述基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行所述卸载策略还包括:设计与所述动作者网络对应的目标动作者网络,并设计与所述评论家网络对应的目标评论家网络;
所述动作者网络包括第一网络参数;
所述目标动作者网络包括第一目标网络参数;
所述评论家网络包括第二网络参数;
所述目标评论家网络包括第二目标网络参数;
所述基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行所述卸载策略之后包括:
按照预设周期从所述回放记忆库中任意采集多个状态转移过程
Figure BDA0003241124640000103
其中,si j表示采集的多个智能网联汽车的状态,ai j表示采集的多个智能网联汽车的目标动作,ri j表示采集的多个智能网联汽车的奖励,si ’j表示采集的多个智能网联汽车的新状态;
合并所述多个状态转移过程,得到合并后的状态转移过程
Figure BDA0003241124640000104
其中,Si j表示采集的多个智能网联汽车的合并状态,Ai j表示采集的多个智能网联汽车的目标合并动作,Ri j表示采集的多个智能网联汽车的合并奖励,Si ’j表示采集的多个智能网联汽车的新合并状态;
基于所述合并后的状态转移过程、所述目标评论家网络、所述目标动作者网络得到目标Q值yi j
Figure BDA0003241124640000101
式中,Qi’()表示所述目标评论家网络,πi’()表示所述目标动作者网络,γ表示折扣率;
基于所述合并后的状态转移过程、所述评论家网络以及所述目标Q值计算时间差分误差
Figure BDA0003241124640000105
Figure BDA0003241124640000102
式中,Qi()表示所述评论家网络;
根据所述时间差分误差得到所述评论家网络的所述第二网络参数的损失函数L(ωi):
Figure BDA0003241124640000111
式中,x表示采集的多个状态转移过程的数量;
采用最小化损失函数方法对所述第二网络参数进行更新;
采用策略梯度方法对所述动作者网络的所述第一网络参数进行更新;
所述策略梯度方法为:
Figure BDA0003241124640000112
式中,
Figure BDA0003241124640000113
表示所述第一网络参数的损失函数的梯度,πi()表示所述动作者网络;
采用软替换方法对所述目标动作者网络的所述第一目标网络参数以及所述目标评论家网络的所述第二目标网络参数进行更新;
所述软替换方法为:
θi”=v·θi+(1-v)·θi’ν∈[0,1];
ωi”=v·ωi+(1-v)·ωi’ν∈[0,1];
式中,θi”表示更新后的所述第一目标网络参数,θi表示所述第一网络参数,θi’表示所述第一目标网络参数,ωi”表示更新后的所述第二目标网络参数,ωi表示所述第二网络参数,ωi’表示所述第二目标网络参数,v表示软替换速率。
由上述描述可知,按照预设周期更新动作者网络、评论家网络、目标动作者网络以及目标评论家网络,能够不断优化网络,提高了选择卸载策略的准确性,从而降低卸载失败率。
请参照图2,本发明另一实施例提供了一种基于深度强化学习的多车应用计算卸载终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于深度强化学习的多车应用计算卸载方法中的各个步骤。
本发明上述基于深度强化学习的多车应用计算卸载方法及终端能够适用于车载边缘计算(vehicularedge computing,VEC)环境下的多车应用计算卸载,以下通过具体实施方式进行说明:
实施例一
请参照图1,本实施例的一种基于深度强化学习的多车应用计算卸载方法,包括:
S1、基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络;
S2、根据所述车辆边缘计算网络确定计算卸载问题,并根据所述计算卸载问题建立马尔科夫决策过程模型;
S3、基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行所述卸载策略;
由于在车载边缘计算网络,CAVs(多个智能网联汽车)需要综合考虑到DNN层间的数据依赖关系、时变的任务处理时延、有限的RSUs(多个路边单位)计算资源以及车辆移动性来确定卸载决策,且多车间的卸载决策会相互影响,MDP(Markov DecisionProcess,马尔科夫决策过程)模型能够准确地描述多车计算卸载的过程,结合模拟退火的多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient Combinedwith Simulated Anneling,SA-MADDPG)能够避免陷入局部最优解,加快收敛速度,有效地适应动态的多车环境,以此确定出最优的卸载策略,从而降低卸载失败率。
实施例二
请参照图1、3,本实施例在实施例一的基础上进一步限定了如何构建车辆边缘计算网络,具体为:
其中,每一所述DNN应用包括多个DNN层;
具体的,多个DNN层之间存在数据依赖关系;
所述S1具体为:
S11、确定多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用;
具体的,确定n辆CAVs、m个RSUs以及与n辆CAVs对应的z类DNN应用(深度神经网络应用程序);
CAVs的行驶时间可划分为t个时间片,每个时间片长度为l,在同一个时间片内,智能网联汽车的相对位置以及无线信道状态保持不变,每辆CAV配备有车载计算单元(Vehicle Computing Unit,VCU),因此每辆CAV具备一定的处理能力,每个RSU具有一定的通信范围,且部署了路侧边缘服务器(Roadside Edge Server,RES),因此每个RSU可以提供强大的计算能力;
S12、根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建DNN应用模型;
由于CAVs是DNN应用的载体,假设CAVs上部署有z类DNN应用,在每个时间片中,应用生成概率为ρ,则每类应用生成概率为ρ/z,不生成应用的概率为1-ρ,每辆CAV在同一个时间片内最多产生一个同类型的DNN应用,因此DNN应用可由DNN应用模型表示;
具体的,根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建所述DNN应用模型Ai,j,k
Ai,j,k={Gi,j,k,di,j,k},i∈{1,2,...,n},j∈{1,2,...,z},k∈{1,2,...,t};
式中,i表示所述DNN应用对应的所述智能网联汽车CAV的标识ID,j表示所述DNN应用的类型,k表示所述DNN应用对应的生成时间片,Gi,j,k表示由所述DNN应用构建的有向无环图(DirectedAcyclic Graph,DAG),di,j,k表示所述DNN应用的可容忍时间片个数;
每个DNN应用都有对应的剩余生命周期时间片ai,j,k,其初始值为di.j.k,ai,j,k随着时间片的增加而减少,这表示DNN应用必须要在ai,j,k的时间片内处理完成;
其中,Gi,j,k可进一步表示为:
Gi,j,k=<Ni,j,k,Ei,j,k>;
Figure BDA0003241124640000131
Figure BDA0003241124640000132
式中,Ni,j,k表示DNN层集合,
Figure BDA0003241124640000133
表示第Ni,j,k个DNN层,Ei,j,k表示DNN层之间的数据依赖关系,
Figure BDA0003241124640000141
表示存在一条
Figure BDA00032411246400001419
Figure BDA00032411246400001420
的有向边,
Figure BDA0003241124640000142
表示
Figure BDA00032411246400001410
Figure BDA00032411246400001411
不存在有向边;
其中,
Figure BDA00032411246400001412
Figure BDA00032411246400001413
的直接前驱DNN层,直接前驱DNN层
Figure BDA00032411246400001417
必须在
Figure BDA00032411246400001418
执行前完成,直接前驱DNN层集合表示为
Figure BDA0003241124640000143
当DNN层
Figure BDA00032411246400001414
的直接前驱DNN层集合
Figure BDA00032411246400001416
里的直接前驱DNN层全部处理完成,该DNN层
Figure BDA00032411246400001415
才具备执行条件;
具体的,DNN层可进一步表示为:
Figure BDA0003241124640000149
式中,u表示DNN层的编号,
Figure BDA00032411246400001421
表示DNN层的深度,
Figure BDA00032411246400001422
表示DNN层的数据量;
具体的,DNN层的深度
Figure BDA00032411246400001423
可进一步表示为:
Figure BDA0003241124640000144
式中,
Figure BDA00032411246400001424
表示第u个DNN层的直接前驱DNN层集合;
S13、根据所述多个智能网联汽车、所述多个路边单位、所述多个DNN应用和所述多个DNN层建立与所述多个智能网联汽车对应的第一DNN层队列以及与所述多个路边单位对应的第二DNN层队列;
其中,所述第一DNN层队列为CAVs上的DNN层队列
Figure BDA0003241124640000145
所述第二DNN层队列为RSUs上的DNN层队列
Figure BDA0003241124640000146
DNN层队列中的DNN层按照
Figure BDA00032411246400001425
的顺序升序排序;
Figure BDA0003241124640000147
存放着CAVs生成DNN应用的DNN层,CAVs只能传输和处理位于第一DNN层队列中队首的DNN层,
Figure BDA0003241124640000148
存放着CAVs卸载至RSUs上的DNN层,RSUs只能处理位于第二DNN层队列中队首的DNN层;
DNN层需满足对应的执行条件才能进行传输和处理,即该DNN层位于DNN层队列的队首,且该DNN层的直接前驱DNN层集合里的DNN层全部处理完成;
S14、根据所述多个智能网联汽车、所述多个路边单位构建所述多个智能网联汽车与所述多个路边单位的通信模型;
在RSUs的通信范围内,CAVs可以通过车辆与基础设施(Vehicle toInfrastructure,V2I)通信传输DNN层数据至RSUs处理,以充分利用邻域内RSUs的计算资源;
具体的,定义信道带宽、信道衰落因子、高斯白噪声功率以及路径损耗因子;
获取所述多个智能网联汽车的传输功率以及所述多个路边单位的通信范围;
基于所述多个智能网联汽车、所述多个路边单位、所述信道带宽、所述信道衰落因子、所述高斯白噪声功率、所述路径损耗因子、所述传输功率以及所述通信范围构建所述多个智能网联汽车与所述多个路边单位的通信模型;
所述通信模型为:
Figure BDA0003241124640000151
式中,
Figure BDA0003241124640000152
表示在第k个时间片,第i个智能网联汽车CAV与第j个路边单位RSU的数据传输率,B表示信道带宽,h表示信道衰落因子,ptr表示所述多个智能网联汽车CAV的传输功率,x表示所述高斯白噪声功率,
Figure BDA0003241124640000157
表示所述路径损耗因子,
Figure BDA0003241124640000153
表示第i个智能网联汽车CAV与第j个路边单位RSU的距离,r表示所述多个路边单位RSU的通信范围;
其中,
Figure BDA0003241124640000154
可以进一步表示为:
Figure BDA0003241124640000155
式中,xi k表示第i个CAV在第k个时间片的x轴坐标,yi k表示第i个CAV在第k个时间片的y轴坐标,xj k表示第j个RSU在第k个时间片的x轴坐标,yj k表示第j个RSU在第k个时间片的y轴坐标;
当CAVs在RSUs的通信范围内,即满足
Figure BDA0003241124640000156
CAVs才可进行任务数据的传输,在第k个时间片,如果第i个CAV要传输DNN层数据至通信范围内的第j个RSU,那么其传输的DNN数据量为
Figure BDA0003241124640000161
S15、根据所述多个智能网联汽车、所述多个路边单位以及所述多个DNN层构建所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型;
假设所有CAVs具有相同的算力,所有RSUs具有相同的算力,算力为以周期每秒为单位的CPU频率;
具体的,获取所述多个智能网联汽车对应的第一算力以及所述多个路边单位对应的第二算力;
确定预设DNN层数据处理密度;
基于所述第一算力、预设时间片长度、所述预设DNN层数据处理密度确定所述多个智能网联汽车在任一时间片内对应的第一数据处理总量;
基于所述第二算力、预设时间片长度、所述预设DNN层数据处理密度确定所述多个智能网联汽车在任一时间片内对应的第二数据处理总量;
根据所述第一数据处理总量和所述第二数据处理总量得到所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型;
所述第一数据处理总量εv为:
Figure BDA0003241124640000162
式中,fv表示所述第一算力,l表示预设时间片长度,c表示所述预设DNN层数据处理密度;
所述第二数据处理总量εr为:
Figure BDA0003241124640000163
式中,fr表示所述第二算力;
其中,预设DNN层数据处理密度为CPU周期/比特;
S16、根据所述DNN应用模型、所述第一DNN层队列、所述第二DNN层队列、所述通信模型以及所述计算模型生成车辆边缘计算网络;
如图3所示,图3展示了车辆边缘计算网络的示意图,可以看出,每个RSU都具备一定的通信范围(即图3中的Communication area ofRSU),部署了移动边缘计算服务器(即图3中的MEC Server,Mobile Edge Computing Server),每个CAV和RSU拥有各自的DNN层队列(即图3中的Task Queue),在RSUs的通信范围内,CAVs可以通过V2I通信传输DNN层数据至RSUs处理。
实施例三
请参照图1、4,本实施例在实施例一或实施例二的基础上进一步限定了如何确定计算卸载问题以及建立马尔科夫决策过程模型,具体为:
其中,DNN应用卸载失败有两种情况:一种是DNN层在数据传输过程中CAVs离开接收数据的RSU的通信范围,则该DNN应用卸载失败,另一种是DNN应用剩余生命周期时间片为0时,DNN层未全部处理完成,则DNN应用卸载失败;
我们的优化目标是最小化CAVs的平均卸载失败率,因此可以对计算卸载问题进行确定;
所述S2具体为:
所述计算卸载问题为:
Figure BDA0003241124640000171
式中,Minimize表示最小化,AFR表示所述多个智能网联汽车的平均卸载失败率,FRi表示第i个智能网联汽车的卸载失败率,n表示所述多个智能网联汽车的数量;
其中,卸载失败率为卸载失败应用个数除以生成应用总个数;
MDP模型是强化学习算法的基本模型,因此需要建立MDP模型,MDP模型包括智能体,在多车计算卸载过程中,每个CAV都是智能体;
获取目标时间片内目标智能网联汽车对应的状态si(k)以及对应的动作ai(k);
具体的,获取第k个时间片内第i个CAV对应的状态si(k)以及对应的动作ai(k);
根据所述目标智能网联汽车对应的状态确定所述多个智能网联汽车的联合状态S(k);
根据所述目标智能网联汽车对应的动作确定所述多个智能网联汽车的联合动作A(k);
获取目标时间片内目标智能网联汽车对应的卸载失败应用集合Δi(k)以及卸载成功应用集合γi(k);
具体的,获取第k个时间片内第i个CAV对应的卸载失败应用集合Δi(k)以及卸载成功应用集合γi(k);
根据所述卸载失败应用集合以及卸载成功应用集合确定目标智能网联汽车的奖励函数ri(k);
根据所述目标智能网联汽车的奖励函数确定所述多个智能网联汽车的联合奖励R(k);
根据所述联合状态、所述联合动作、所述联合奖励生成马尔科夫决策过程模型;
所述si(k)为:
Figure BDA0003241124640000181
式中,k表示第k个时间片,
Figure BDA0003241124640000183
表示所述目标智能网联汽车的二维坐标,oi(k)表示所述智能网联汽车与所述路边单位在通信范围内的数据传输率;
其中,
Figure BDA0003241124640000182
所述S(k)为:
S(k)={s1(k),s2(k),...,sn(k)};
所述ai(k)为:
ai(k)∈{1,2,...,m+1};
式中,{1,2,…,m}表示所述目标智能网联汽车选择卸载所述DNN层至第j个路边单位,m+1表示所述目标智能网联汽车本地处理所述DNN层;
其中,ai(k)即CAV基于当前卸载策略所选择的卸载方式;
所述A(k)为:
A(k)={a1(k),a2(k),...,an(k)};
所述Δi(k)为:
Δi(k)={A1,A2,...,Af};
所述γi(k)为:
Υi(k)={A1,A2,...,Au};
所述ri(k)为:
Figure BDA0003241124640000191
所述R(k)为:
R(k)={r1(k),r2(k),...,rn(k)}。
图4展示了VEC环境下多车计算卸载的一个实例,如图4所示,假设在第一个时间片,CAV 1生成DNN应用A1,1,1,其可容忍时间为2个时间片,CAV 2生成DNN应用A2,2,1,其可容忍时间为1个时间片;随后,构成A1,1,1的两个DNN层T1 1,1,1,T2 1,1,1进入DNN层队列
Figure BDA0003241124640000192
中,构成A2,2,1的DNN层T1 2,2,1进入DNN层队列
Figure BDA0003241124640000193
中;接着,CAV 1和CAV 2将DNN层数据卸载至RSU上,则位于
Figure BDA0003241124640000194
队首的T1 1,1,1,T2 2,2,1卸载至
Figure BDA0003241124640000195
中;最后,RSU处理位于
Figure BDA0003241124640000196
队首的DNN层T1 2,2,1,A2,2,1卸载处理完成;
在第二个时间片,首先,由于T2 1,1,1的前驱DNN层T1 1,1,1尚未处理完成,
Figure BDA0003241124640000197
上的T2 1,1,1不能进行传输或者本地处理;接着,CAV 2生成DNN应用A2,2,2,其可容忍时间为1个时间片,CAV 2本地处理DNN层T2 2,2,1的数据,那么A2,2,2卸载成功;最后,RSU处理位于
Figure BDA0003241124640000198
队首的DNN层T1 1,1,1
在第三个时间片,由于a1,1,1=0,而A1,1,1尚未处理完成,因此A1,1,1卸载失败,在
Figure BDA0003241124640000199
中删除DNN层T2 1,1,1
实施例四
请参照图5-7,本实施例在实施例一、实施例二或实施例三的基础上进一步限定了如何确定卸载策略并执行卸载策略,具体为:
在多车环境中,由于多车之间的卸载决策会相互影响,传统的强化学习算法,如Actor-Critic(强化学习)、DQN(Deep Q Network,融合神经网络和Q learning的方法)、DDPG等,由于仅考虑单车的局部信息,没有考虑多车环境的全局信息,训练得到的策略在执行时不稳定;
多智能体深度确定性策略梯度算法(MADDPG,Multi-Agent Deep DeterministicPolicy Gradient)是深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的多智能体版本扩展,通过多车环境的全局信息集中式训练评论家网络,动作者网络仅需要单车的局部信息就可分布式执行,能有效地适应动态的多车环境;
如图5所示,图5为VEC环境下基于SA-MADDPG的多车计算卸载框架,其中包括两类网络结构,一类是动作者网络,一类是评论家网络;
所述S3具体为:
S31、设计与所述智能网联汽车对应的动作者网络;
设计与所述动作者网络对应的评论家网络;
设计与所述动作者网络对应的目标动作者网络,并设计与所述评论家网络对应的目标评论家网络;
其中,所述动作者网络包括第一网络参数;
所述目标动作者网络包括第一目标网络参数;
所述评论家网络包括第二网络参数;
所述目标评论家网络包括第二目标网络参数;
动作者网络的作用在于通过单个车辆的局部信息进行训练,执行过程中,只需要该动作者网络就能够选取对应动作,评论家网络的作用在于通过多个车辆的全局信息进行训练,并对动作者网络的训练进行指导,执行过程中无需该评论家网络,目标动作者网络的作用在于稳定动作者网络的更新过程,目标评论家网络的作用在于稳定评论家网络的更新过程;
具体的,如图5所示,在训练过程中,每个CAV都部署设计一个动作者网络πi,对应的第一网络参数为θi,还部署设计了与动作者网络πi网络结构一致的目标动作者网络π′i,对应的第一目标网络参数为θi′;
同时,在训练过程中,每个CAV都部署设计了一个评论家网络Qi,对应的第二网络参数为ωi,还部署设计了与评论家网络Qi网络结构一致的目标评论家网络Q′i,对应的第二目标网络参数为ω′i
S32、将所述目标智能网联汽车对应的状态输入至所述动作者网络得到最佳动作,根据模拟退火策略从预设随机动作与所述最佳动作之间选择得到目标动作,并执行所述目标动作对应的卸载策略,返回与所述卸载策略对应的奖励和新状态;
具体的,如图5、6所示,图6为动作者网络πi的结构示意图,首先,输入目标智能网联汽车CAVi的局部信息(即目标智能网联汽车CAVi对应的状态si(k))至动作者网络πi,然后经过两层隐层(即图6中的Hiddenlayer),接着经过Softmax层进行归一化处理,最后的输出层有m+1个值(即图6中pi 1(k)至pi m+1(k)),每个值表示相应动作的概率,动作表示CAV选择的卸载策略,最后,选择最大概率的动作作为最佳动作,根据模拟退火策略(即图5中的SAStrategy)从预设随机动作与最佳动作之间选择得到目标动作ai(k),在执行过程中,我们只需要输入CAV的局部信息至目标动作者网络π′i,即可输出目标动作ai(k)对应的卸载策略;
执行卸载策略,返回与该卸载策略对应的奖励ri(k)和新状态si′(k),如图5所示;
其中,所述预设随机动作为在{1,2,…,m+1}中服从均匀分布取随机数,所述预设随机动作表示所述目标智能网联汽车选择卸载所述DNN层至路边单位还是本地处理所述DNN层;
S33、根据所述目标智能网联汽车对应的状态、所述目标动作、所述奖励和所述新状态生成状态转移过程,并将所述状态转移过程保存至回放记忆库;
具体的,根据si(k)、ai(k)、ri(k)和si′(k)生成状态转移过程<s(k),a(k),r(k),s′(k)>,即全局信息,并将<s(k),a(k),r(k),s′(k)>保存至回放记忆库Di
S34、将所述多个智能网联汽车的联合状态和联合动作输入至所述评论家网络得到Q值;
具体的,如图7所示,图7为评论家网络Qi的结构示意图,首先,输入多个智能网联汽车CAVs的全局信息(即联合状态S(k)和联合动作A(k))至评论家网络Qi,经过两层隐层(即图7中的Hiddenlayer)后,输出Q值(Q-value),在执行过程中,无需在CAV上部署评论家网络Qi
S35、根据Q值更新所述动作者网络及所述评论家网络。
实施例五
请参照图1,本实施例在实施例一、实施例二、实施例三或实施例四的基础上进一步限定了如何更新动作者网络和评论家网络,具体为:
其中,更新网络时,先对评论家网络进行更新,再对动作者网络进行更新,最后对目标网络(目标评论家网络和目标动作者网络)进行更新,并且,更新网络本质上是对网络的参数进行更新,当网络参数更新完成,则表示该网络更新完成;
所述S35包括:
S351、按照预设周期从所述回放记忆库中任意采集多个状态转移过程
Figure BDA0003241124640000224
其中,si j表示采集的多个智能网联汽车的状态,ai j表示采集的多个智能网联汽车的目标动作,ri j表示采集的多个智能网联汽车的奖励,si ’j表示采集的多个智能网联汽车的新状态;
所述预设周期为C个时间片;
具体的,每隔C个时间片从回放记忆库Di中任意采集数量为x组的状态转移过程
Figure BDA0003241124640000222
S352、合并所述多个状态转移过程,得到合并后的状态转移过程
Figure BDA0003241124640000223
其中,Si j表示采集的多个智能网联汽车的合并状态,Ai j表示采集的多个智能网联汽车的目标合并动作,Ri j表示采集的多个智能网联汽车的合并奖励,Si ’j表示采集的多个智能网联汽车的新合并状态;
S353、基于所述合并后的状态转移过程、所述目标评论家网络、所述目标动作者网络得到目标Q值yi j
Figure BDA0003241124640000221
式中,Qi’()表示所述目标评论家网络,πi’()表示所述目标动作者网络,γ表示折扣率;
其中,所述折扣率位于0和1之间,数值越大表示智能体更关注长期奖励,反之,更关注短期奖励;
S354、基于所述合并后的状态转移过程、所述评论家网络以及所述目标Q值计算时间差分(TD)误差δi j
Figure BDA0003241124640000234
式中,Qi()表示所述评论家网络;
S355、根据所述时间差分误差得到所述评论家网络的所述第二网络参数的损失函数L(ωi):
Figure BDA0003241124640000231
式中,x表示采集的多个状态转移过程的数量;
S356、采用最小化损失函数方法对所述第二网络参数进行更新;
S357、采用策略梯度方法对所述动作者网络的所述第一网络参数进行更新;
所述策略梯度方法为:
Figure BDA0003241124640000232
式中,
Figure BDA0003241124640000233
表示所述第一网络参数的损失函数的梯度,πi()表示所述动作者网络;
S358、采用软替换方法对所述目标动作者网络的所述第一目标网络参数以及所述目标评论家网络的所述第二目标网络参数进行更新;
所述软替换方法为:
θi”=v·θi+(1-v)·θi’ν∈[0,1];
ωi”=v·ωi+(1-v)·ωi’ν∈[0,1];
式中,θi”表示更新后的所述第一目标网络参数,θi表示所述第一网络参数,θi’表示所述第一目标网络参数,ωi”表示更新后的所述第二目标网络参数,ωi表示所述第二网络参数,ωi’表示所述第二目标网络参数,v表示软替换速率;
本发明基于深度强化学习的多车应用计算卸载方法的使用过程如下:
首先,初始化车辆边缘计算网络,目标智能网联汽车CAVi按照ρ/z概率生成各类DNN应用,分解DNN应用得到多个DNN层,DNN层进入DNN层队列,其次,根据CAVi的轨迹信息得到CAVi的二维坐标
Figure BDA0003241124640000241
并根据通信模型计算CAVi与通信范围内的RSU的数据传输率oi(k),然后得到CAVi的状态si(k);
将si(k)输入至动作者网络πi,根据模拟退火策略从随机动作与最佳动作之间选择得到目标动作ai(k),执行ai(k)对应的卸载策略,更新车辆边缘计算网络,返回与该卸载策略对应的奖励ri(k),状态转移至新状态si′(k),将<si(k),ai(k),ri(k),si’(k)>保存至回放记忆库Di
当间隔C个时间片时,每一CAVi随机采样数量为x组的
Figure BDA0003241124640000242
合并得到
Figure BDA0003241124640000243
计算得到目标Q值yi j以及TD误差
Figure BDA0003241124640000244
采用最小化损失函数方法对评论家网络的第二网络参数ωi进行更新,然后采用策略梯度方法对动作者网络的第一网络参数θi进行更新,最后采用软替换方法对目标动作者网络的第一目标网络参数θi’以及目标评论家网络的第二目标网络参数ωi’进行更新,以此完成对所有网络的更新;
其中,完成所有网络的更新之后,还对当前温度进行降温处理,即Tep=σepT1
式中,T1表示第一回合的温度,Tep表示第ep回合的温度,σep表示第ep回合的降温系数;
每回合结束后,即完成所有网络的更新之后,进行降温处理,该降温处理的作用在于使当前回合的当前温度随着回合次数的增加而降低,从而使得下一回合根据模拟退火策略选择最佳动作的概率会越大,加快收敛速度。
实施例六
请参照图2,一种基于深度强化学习的多车应用计算卸载终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例一、实施例二、实施例三、实施例四或实施例五中的基于深度强化学习的多车应用计算卸载方法中的各个步骤。
综上所述,本发明提供的一种基于深度强化学习的多车应用计算卸载方法及终端,基于多个智能网联汽车、多个路边单位以及与多个智能网联汽车对应的多个DNN应用分别构建DNN应用模型、第一DNN层队列、第二DNN层队列、通信模型以及计算模型,根据构建的模型和队列生成车辆边缘计算网络,准确构建了车辆边缘计算网络,便于后续基于车辆边缘计算网络确定计算卸载问题,从而提高确定计算卸载问题的准确性;根据所述车辆边缘计算网络确定计算卸载问题,并根据所述计算卸载问题基于目标智能网联汽车的联合状态、联合动作、联合奖励生成马尔科夫决策过程模型,将马尔科夫决策过程模型引入计算卸载问题,考虑了智能体、状态空间、动作空间和奖励四个关键因素,能够准确描述多车计算卸载的过程;基于所述马尔科夫决策过程模型使用SA-MADDPG算法将目标智能网联汽车对应的状态输入至动作者网络得到最佳动作,根据模拟退火策略选择得到目标动作,并执行目标动作对应的卸载策略,返回与卸载策略对应的奖励和新状态,能有效地适应动态的多车环境,且使用模拟退火策略用于动作的选择,避免陷入局部最优解,加快收敛速度,提高了选择卸载策略的准确性;根据目标智能网联汽车对应的状态、目标动作、奖励和新状态生成状态转移过程,并将状态转移过程保存至回放记忆库,再将多个智能网联汽车的联合状态和联合动作输入至评论家网络得到Q值,根据Q值更新动作者网络及评论家网络,能够不断优化网络,提高了选择卸载策略的准确性,从而降低卸载失败率。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于深度强化学习的多车应用计算卸载方法,其特征在于,包括:
基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络;
根据所述车辆边缘计算网络确定计算卸载问题,并根据所述计算卸载问题建立马尔科夫决策过程模型;
基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行所述卸载策略。
2.根据权利要求1所述的一种基于深度强化学习的多车应用计算卸载方法,其特征在于,每一所述DNN应用包括多个DNN层;
所述基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络包括:
确定多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用;
根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建DNN应用模型;
根据所述多个智能网联汽车、所述多个路边单位、所述多个DNN应用和所述多个DNN层建立与所述多个智能网联汽车对应的第一DNN层队列以及与所述多个路边单位对应的第二DNN层队列;
根据所述多个智能网联汽车、所述多个路边单位构建所述多个智能网联汽车与所述多个路边单位的通信模型;
根据所述多个智能网联汽车、所述多个路边单位以及所述多个DNN层构建所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型;
根据所述DNN应用模型、所述第一DNN层队列、所述第二DNN层队列、所述通信模型以及所述计算模型生成车辆边缘计算网络。
3.根据权利要求2所述的一种基于深度强化学习的多车应用计算卸载方法,其特征在于,所述根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建DNN应用模型包括:
根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建所述DNN应用模型Ai,j,k
Ai,j,k={Gi,j,k,di,j,k},i∈{1,2,...,n},j∈{1,2,...,z},k∈{1,2,...,t};
式中,i表示所述DNN应用对应的所述智能网联汽车的标识,j表示所述DNN应用的类型,k表示所述DNN应用对应的生成时间片,Gi,j,k表示由所述DNN应用构建的有向无环图,di,j,k表示所述DNN应用的可容忍时间片个数。
4.根据权利要求2所述的一种基于深度强化学习的多车应用计算卸载方法,其特征在于,所述根据所述多个智能网联汽车、所述多个路边单位构建所述多个智能网联汽车与所述多个路边单位的通信模型包括:
定义信道带宽、信道衰落因子、高斯白噪声功率以及路径损耗因子;
获取所述多个智能网联汽车的传输功率以及所述多个路边单位的通信范围;
基于所述多个智能网联汽车、所述多个路边单位、所述信道带宽、所述信道衰落因子、所述高斯白噪声功率、所述路径损耗因子、所述传输功率以及所述通信范围构建所述多个智能网联汽车与所述多个路边单位的通信模型;
所述通信模型为:
Figure FDA0003241124630000021
式中,
Figure FDA0003241124630000022
表示在第k个时间片,第i个智能网联汽车与第j个路边单位的数据传输率,B表示信道带宽,h表示信道衰落因子,ptr表示所述多个智能网联汽车的传输功率,x表示所述高斯白噪声功率,
Figure FDA0003241124630000023
表示所述路径损耗因子,
Figure FDA0003241124630000024
表示第i个智能网联汽车与第j个路边单位的距离,r表示所述多个路边单位的通信范围。
5.根据权利要求2所述的一种基于深度强化学习的多车应用计算卸载方法,其特征在于,所述根据所述多个智能网联汽车、所述多个路边单位以及所述多个DNN层构建所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型包括:
获取所述多个智能网联汽车对应的第一算力以及所述多个路边单位对应的第二算力;
确定预设DNN层数据处理密度;
基于所述第一算力、预设时间片长度、所述预设DNN层数据处理密度确定所述多个智能网联汽车在任一时间片内对应的第一数据处理总量;
基于所述第二算力、预设时间片长度、所述预设DNN层数据处理密度确定所述多个智能网联汽车在任一时间片内对应的第二数据处理总量;
根据所述第一数据处理总量和所述第二数据处理总量得到所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型;
所述第一数据处理总量εv为:
Figure FDA0003241124630000031
式中,fv表示所述第一算力,l表示预设时间片长度,c表示所述预设DNN层数据处理密度;
所述第二数据处理总量εr为:
Figure FDA0003241124630000032
式中,fr表示所述第二算力。
6.根据权利要求1所述的一种基于深度强化学习的多车应用计算卸载方法,其特征在于,所述根据所述车辆边缘计算网络确定计算卸载问题包括:
所述计算卸载问题为:
Figure FDA0003241124630000033
式中,Minimize表示最小化,AFR表示所述多个智能网联汽车的平均卸载失败率,FRi表示第i个智能网联汽车的卸载失败率,n表示所述多个智能网联汽车的数量。
7.根据权利要求4所述的一种基于深度强化学习的多车应用计算卸载方法,其特征在于,所述根据所述计算卸载问题建立马尔科夫决策过程模型包括:
获取目标时间片内目标智能网联汽车对应的状态si(k)以及对应的动作ai(k);
根据所述目标智能网联汽车对应的状态确定所述多个智能网联汽车的联合状态S(k);
根据所述目标智能网联汽车对应的动作确定所述多个智能网联汽车的联合动作A(k);
获取目标时间片内目标智能网联汽车对应的卸载失败应用集合Δi(k)以及卸载成功应用集合Υi(k);
根据所述卸载失败应用集合以及卸载成功应用集合确定目标智能网联汽车的奖励函数ri(k);
根据所述目标智能网联汽车的奖励函数确定所述多个智能网联汽车的联合奖励R(k);
根据所述联合状态、所述联合动作、所述联合奖励生成马尔科夫决策过程模型;
所述si(k)为:
Figure FDA0003241124630000041
式中,k表示第k个时间片,
Figure FDA0003241124630000042
表示所述目标智能网联汽车的二维坐标,oi(k)表示所述智能网联汽车与所述路边单位在通信范围内的数据传输率;
所述S(k)为:
S(k)={s1(k),s2(k),...,sn(k)};
所述ai(k)为:
ai(k)∈{1,2,...,m+1};
式中,{1,2,…,m}表示所述目标智能网联汽车选择卸载所述DNN层至第j个路边单位,m+1表示所述目标智能网联汽车本地处理所述DNN层;
所述A(k)为:
A(k)={a1(k),a2(k),...,an(k)};
所述Δi(k)为:
Δi(k)={A1,A2,...,Af};
所述Υi(k)为:
Υi(k)={A1,A2,...,Au};
所述ri(k)为:
Figure FDA0003241124630000051
所述R(k)为:
R(k)={r1(k),r2(k),...,rn(k)}。
8.根据权利要求7所述的一种基于深度强化学习的多车应用计算卸载方法,其特征在于,所述基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行所述卸载策略包括:
设计与所述智能网联汽车对应的动作者网络;
设计与所述动作者网络对应的评论家网络;
将所述目标智能网联汽车对应的状态输入至所述动作者网络得到最佳动作,根据模拟退火策略从预设随机动作与所述最佳动作之间选择得到目标动作,并执行所述目标动作对应的卸载策略,返回与所述卸载策略对应的奖励和新状态;
根据所述目标智能网联汽车对应的状态、所述目标动作、所述奖励和所述新状态生成状态转移过程,并将所述状态转移过程保存至回放记忆库;
将所述多个智能网联汽车的联合状态和联合动作输入至所述评论家网络得到Q值;
根据Q值更新所述动作者网络及所述评论家网络。
9.根据权利要求8所述的一种基于深度强化学习的多车应用计算卸载方法,其特征在于,所述基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行所述卸载策略还包括:设计与所述动作者网络对应的目标动作者网络,并设计与所述评论家网络对应的目标评论家网络;
所述动作者网络包括第一网络参数;
所述目标动作者网络包括第一目标网络参数;
所述评论家网络包括第二网络参数;
所述目标评论家网络包括第二目标网络参数;
所述基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略,并执行所述卸载策略之后包括:
按照预设周期从所述回放记忆库中任意采集多个状态转移过程
Figure FDA0003241124630000061
其中,si j表示采集的多个智能网联汽车的状态,ai j表示采集的多个智能网联汽车的目标动作,ri j表示采集的多个智能网联汽车的奖励,si ’j表示采集的多个智能网联汽车的新状态;
合并所述多个状态转移过程,得到合并后的状态转移过程
Figure FDA0003241124630000062
其中,Si j表示采集的多个智能网联汽车的合并状态,Ai j表示采集的多个智能网联汽车的目标合并动作,Ri j表示采集的多个智能网联汽车的合并奖励,Si ’j表示采集的多个智能网联汽车的新合并状态;
基于所述合并后的状态转移过程、所述目标评论家网络、所述目标动作者网络得到目标Q值yi j
Figure FDA0003241124630000063
式中,Qi’()表示所述目标评论家网络,πi’()表示所述目标动作者网络,γ表示折扣率;
基于所述合并后的状态转移过程、所述评论家网络以及所述目标Q值计算时间差分误差
Figure FDA0003241124630000064
Figure FDA0003241124630000065
式中,Qi()表示所述评论家网络;
根据所述时间差分误差得到所述评论家网络的所述第二网络参数的损失函数L(ωi):
Figure FDA0003241124630000066
式中,x表示采集的多个状态转移过程的数量;
采用最小化损失函数方法对所述第二网络参数进行更新;
采用策略梯度方法对所述动作者网络的所述第一网络参数进行更新;
所述策略梯度方法为:
Figure FDA0003241124630000071
式中,
Figure FDA0003241124630000072
表示所述第一网络参数的损失函数的梯度,πi()表示所述动作者网络;
采用软替换方法对所述目标动作者网络的所述第一目标网络参数以及所述目标评论家网络的所述第二目标网络参数进行更新;
所述软替换方法为:
θi”=v·θi+(1-v)·θi’ ν∈[0,1];
ωi”=v·ωi+(1-v)·ωi’ ν∈[0,1];
式中,θi”表示更新后的所述第一目标网络参数,θi表示所述第一网络参数,θi’表示所述第一目标网络参数,ωi”表示更新后的所述第二目标网络参数,ωi表示所述第二网络参数,ωi’表示所述第二目标网络参数,v表示软替换速率。
10.一种基于深度强化学习的多车应用计算卸载终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的一种基于深度强化学习的多车应用计算卸载方法中的各个步骤。
CN202111019147.1A 2021-09-01 2021-09-01 一种基于深度强化学习的多车应用计算卸载方法及终端 Active CN113726894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111019147.1A CN113726894B (zh) 2021-09-01 2021-09-01 一种基于深度强化学习的多车应用计算卸载方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111019147.1A CN113726894B (zh) 2021-09-01 2021-09-01 一种基于深度强化学习的多车应用计算卸载方法及终端

Publications (2)

Publication Number Publication Date
CN113726894A true CN113726894A (zh) 2021-11-30
CN113726894B CN113726894B (zh) 2023-05-05

Family

ID=78680356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111019147.1A Active CN113726894B (zh) 2021-09-01 2021-09-01 一种基于深度强化学习的多车应用计算卸载方法及终端

Country Status (1)

Country Link
CN (1) CN113726894B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114449584A (zh) * 2022-02-09 2022-05-06 湖南大学 基于深度强化学习的分布式计算卸载方法及装置
CN114697394A (zh) * 2022-05-27 2022-07-01 合肥工业大学 基于离散maddpg的边缘缓存决策模型、方法和系统
CN114449584B (zh) * 2022-02-09 2024-06-28 湖南大学 基于深度强化学习的分布式计算卸载方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
US20200145337A1 (en) * 2019-12-20 2020-05-07 Brian Andrew Keating Automated platform resource management in edge computing environments
CN112822234A (zh) * 2020-12-29 2021-05-18 华北电力大学 一种车联网中基于深度强化学习的任务卸载方法
CN113064671A (zh) * 2021-04-27 2021-07-02 清华大学 基于多智能体的边缘云可扩展任务卸载方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
US20200145337A1 (en) * 2019-12-20 2020-05-07 Brian Andrew Keating Automated platform resource management in edge computing environments
CN112822234A (zh) * 2020-12-29 2021-05-18 华北电力大学 一种车联网中基于深度强化学习的任务卸载方法
CN113064671A (zh) * 2021-04-27 2021-07-02 清华大学 基于多智能体的边缘云可扩展任务卸载方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HAOJIE LIN; WENJING HOU; HONG WEN, ETC.: "MADDPG-based Task Offloading and Resource Management for Edge System", 《CONF-CDS 2021: THE 2ND INTERNATIONAL CONFERENCE ON COMPUTING AND DATA SCIENCE》 *
ZICHUAN XU; LIQIAN ZHAO; WEIFA LIANG, ETC.: "Energy-Aware Inference Offloading for DNN-Driven Applications in Mobile Edge Clouds", 《IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS》 *
曹佳钰; 冷甦鹏; 张科: "面向自动驾驶应用的车联多智能体信息融合协同决策机制研究", 《物联网学报》 *
胡俊钦: "边缘环境下DNN应用的计算迁移调度技术", 《计算机科学》 *
董晓丹;吴琼;: "车载云计算系统中资源分配的优化方法", 《中国电子科学研究院学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114449584A (zh) * 2022-02-09 2022-05-06 湖南大学 基于深度强化学习的分布式计算卸载方法及装置
CN114449584B (zh) * 2022-02-09 2024-06-28 湖南大学 基于深度强化学习的分布式计算卸载方法及装置
CN114697394A (zh) * 2022-05-27 2022-07-01 合肥工业大学 基于离散maddpg的边缘缓存决策模型、方法和系统
CN114697394B (zh) * 2022-05-27 2022-08-16 合肥工业大学 基于离散maddpg的边缘缓存决策模型、方法和系统

Also Published As

Publication number Publication date
CN113726894B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN113867843B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN115297171B (zh) 一种蜂窝车联网分级决策的边缘计算卸载方法及系统
CN113687875B (zh) 一种车联网中车辆任务卸载方法及装置
CN111585811B (zh) 一种基于多智能体深度强化学习的虚拟光网络映射方法
CN114116047A (zh) 一种基于强化学习的车载计算密集型应用的v2i卸载方法
CN115134242B (zh) 一种基于深度强化学习策略的车载计算任务卸载方法
CN114615265A (zh) 边缘计算环境下基于深度强化学习的车载任务卸载方法
CN114860337B (zh) 一种基于元强化学习算法的计算卸载方法
CN108415760B (zh) 一种基于移动机会网络的群智计算在线任务分配方法
CN116321299A (zh) 信息年龄约束下基于mec的车联网任务卸载和资源分配方法
CN113726894A (zh) 一种基于深度强化学习的多车应用计算卸载方法及终端
CN115913712A (zh) 基于多用户多接入点的任务卸载隐私保护系统及方法
CN115658251A (zh) 联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统及介质
CN112862083B (zh) 一种边缘环境下的深度神经网络推断方法及装置
CN113821270A (zh) 任务卸载顺序预测方法、决策方法、电子设备及存储介质
Fu et al. Distributed reinforcement learning-based memory allocation for edge-PLCs in industrial IoT
CN117202264A (zh) Mec环境中面向5g网络切片的计算卸载方法
Hossain et al. Edge orchestration based computation peer offloading in MEC-enabled networks: a fuzzy logic approach
CN115065683B (zh) 基于车辆聚类的车辆边缘网络任务分配卸载方法
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN115865914A (zh) 车辆边缘计算中基于联邦深度强化学习的任务卸载方法
CN116137724A (zh) 一种基于移动边缘计算的任务卸载及资源分配方法
CN114928826A (zh) 一种软件定义车载任务卸载与资源分配的二阶段优化方法、控制器及决策方法
Omland Deep Reinforcement Learning for Computation Offloading in Mobile Edge Computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant