CN112929849A - 一种基于强化学习的可靠车载边缘计算卸载方法 - Google Patents

一种基于强化学习的可靠车载边缘计算卸载方法 Download PDF

Info

Publication number
CN112929849A
CN112929849A CN202110109732.4A CN202110109732A CN112929849A CN 112929849 A CN112929849 A CN 112929849A CN 202110109732 A CN202110109732 A CN 202110109732A CN 112929849 A CN112929849 A CN 112929849A
Authority
CN
China
Prior art keywords
task
vehicle
calculation
representing
drone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110109732.4A
Other languages
English (en)
Other versions
CN112929849B (zh
Inventor
王俊华
岳玉宸
高广鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110109732.4A priority Critical patent/CN112929849B/zh
Publication of CN112929849A publication Critical patent/CN112929849A/zh
Application granted granted Critical
Publication of CN112929849B publication Critical patent/CN112929849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/155Ground-based stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18504Aircraft used as relay or high altitude atmospheric platform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于强化学习的可靠车载边缘计算卸载方法,用于由于城市障碍物导致的路侧单元(RSUs)覆盖范围有限,或者路侧单元计算能力不足等场景中,车辆可以借助无人机(UAV)进行可靠的计算卸载。本发明所述方法将最大化系统效用和最小化功率消耗的多目标优化问题,转化为功率分配问题和计算卸载问题两个子问题,由无人机和路侧单元共同完成任务的分配和计算。该方法通过为传输功率创建机会约束,使用Chebyshev不等式转化机会约束,推导出最小传输功率,确保任务传输的可靠性。本发明通过改进的深度强化学习模型提高计算卸载效率,利用多目标优化问题的结果,调整深度强化学习模型中预测的目标Q值,实现边缘服务器的离线训练,在线更新。

Description

一种基于强化学习的可靠车载边缘计算卸载方法
技术领域
本发明属于车联网的通信技术领域,具体涉及一种基于强化学习的可靠车载边缘计算卸载方法。
背景技术
边缘计算是为车辆提供强大计算能力的最有前途的技术之一,为了使车辆在复杂的交通场景中做出快速响应,它使移动车辆能够将计算任务卸载到各种边缘服务器,例如路侧单元和路侧单元。由于动态车辆网络中的不完全覆盖和间歇性连接,设计一个可靠、高效的计算卸载策略是一个挑战。无人机由于价格低廉、易于部署和灵活移动的优势,已经在包括但不限于智能传感器数据采集、目标跟踪、灾区监测和通信辅助等领域得到应用和发展,考虑通过无人机实现可靠、高效的计算卸载策略。
在无人机技术发展下,通过为无人机配备专用通信接口,无人机可以飞到没有基础设施覆盖的目标区域,并与各种网络设备通信,以提供更好的网络连接。此外,无人机本身有一部分空闲的计算资源,可以用来为没有足够计算能力的网络边缘设备(例如驾驶车辆和移动用户)执行任务。通过连接到具有强大计算能力的边缘服务器,无人机可以交替地将部分任务卸载到边缘服务器,以获得更高的计算速度。
深度强化学习(DRL)将深度学习的感知能力和强化学习的决策能力相结合,将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。
本发明考虑车联网中计算卸载与无人机技术的结合,对深度强化学习算法作进一步改进,提出了一种基于强化学习的可靠车载边缘计算卸载方法。
发明内容
发明目的:本发明旨在实现最大化系统效用,以及最小化能源消耗,解决动态环境下,车辆与无人机之间的高可靠性计算卸载问题。
技术方案:一种基于强化学习的可靠车载边缘计算卸载方法,包括如下步骤:
(1)构建车辆通信系统实现车辆与边缘服务器的通信,所述车辆包括搭载有数据中心,所述边缘服务器包括路侧单元及无人机;
(2)建立车辆与边缘服务器的通信网络,确定边缘计算的多目标优化问题和约束条件,其数学模型表达式如下所示:
Figure BDA0002918767120000021
Figure BDA0002918767120000022
Figure BDA0002918767120000023
Figure BDA0002918767120000024
(C4)xi,j∈{0,1},
其中
Figure BDA0002918767120000025
若xi,j=1表示任务vi,j卸载至无人机,若xi,j=0则表示任务vi,j通过无人机作为中继,且卸载至路侧单元;
Figure BDA0002918767120000026
表示第i车辆传输第j任务所需的传输功率;C1表示保证传输可靠性的约束条件,其中γi,j表示信噪比,γtgt表示目标信噪比,1-ε表示可靠性阈值,ε为最大耐受传输错误率;C2表示计算资源总消耗不能超过无人机的最大可用计算能力,其中
Figure BDA0002918767120000027
表示任务vi,j在无人机计算时的频率;C3表示移动车辆分配的传输功率不能超过功率阈值;C4表示二进制变量的约束;
(3)基于最小化能源消耗和最大化系统效用为目标,分解多目标优化任务,确定功率分配任务和计算卸载任务;
(4)根据车辆与边缘服务器构建的通信网络,边缘服务器完成车载边缘计算任务并反馈至车辆。
进一步的,步骤(1)所述路侧单元为设置在道路旁的固定式服务器,所述无人机搭载有服务器,该无人机包括处理来自车辆数据中心的计算任务或作为中继将该计算任务进行转发至路侧单元。
更具体的,步骤(1)场景设定在公共城市地区,安装路侧单元作为车辆网络基础设施,每一个路侧单元连接一个边缘边缘服务器,由于移动车辆I={1,…,|I|}有大量计算密集型任务J={1,…,|J|},车载单元无法处理,所以路侧单元安排任务搭载服务器的无人机作为无人机,也即,边缘服务器,使移动车辆将计算任务卸载至任务无人机,又或者作为移动车辆向路侧单元卸载计算任务的中继,此外,由首席无人机收集任务无人机的计算卸载问题,将其上传至边缘服务器进行训练。
进一步的,步骤(2)还包括如下计算过程:
(21)定义“传输可靠性”为成功传输概率超过给定的可靠性阈值的可能性,其计算公式为:
Pr(γi,j≥γtgt)≥1-ε;
(22)获取卸载任务vi,j至无人机的信噪比γi,j,其计算公式为:
Figure BDA0002918767120000031
其中K0为系统常量,disi,j表示当第i车辆传输第j任务时与无人机的距离,e表示路径损耗指数,N0表示噪声功率,|hi,j|表示信道衰减参数,符合均值μh和方差Ch的一类分布;
(23)获取任务vi,j从车辆传输至无人机的速率
Figure BDA0002918767120000032
为:
Figure BDA0002918767120000033
其中ωi,j表示任务vi,j所分配的带宽;
(24)计算任务vi,j分别卸载至无人机或路侧单元的时延,其计算公式为:
Figure BDA0002918767120000034
Figure BDA0002918767120000035
其中
Figure BDA0002918767120000036
表示任务vi,j从车辆至无人机的传输速率,
Figure BDA0002918767120000037
表示任务vi,j从无人机至路侧单元的传输速率,
Figure BDA0002918767120000038
Figure BDA0002918767120000039
分别表示任务vi,j在无人机或者路侧单元执行时的计算频率,Ai,j和Bi,j分别表示任务vi,j传输数据和计算数据的大小;
(25)基于参数
Figure BDA00029187671200000310
Figure BDA00029187671200000311
获取任务vi,j的总延迟,其计算公式为:
Figure BDA00029187671200000312
(26)获取系统效用函数Ui,j,其计算方式为:
Ui,j=αi,j log(1+χ-di,j);
其中αi,j是满意度参数,χ用来调整对数函数使其非负;
(27)获取计算能源消耗Ei,j,其计算公式为:
Figure BDA0002918767120000041
其中
Figure BDA0002918767120000042
是任务vi,j在无人机上的传输功率,κu表示有效电容系数,由无人机的CPU硬件结构决定。
进一步的,步骤(3)对于功率分配任务的具体计算过程如下:
(s31)基于信道衰减参数|hi,j|,引入变量
Figure BDA0002918767120000043
使得
Figure BDA0002918767120000044
Figure BDA0002918767120000045
Figure BDA0002918767120000046
符合如下分布:
Figure BDA0002918767120000047
(s32)“传输可靠性”的机会约束可表示为:
Figure BDA0002918767120000048
(s33)使用广义的Chebyshev不等式转化机会约束,其表示为:
Figure BDA0002918767120000049
(s34)满足高度可靠的通信要求,推导出在最坏情况下信道条件下,任务vi,j最小传输功率,其计算公式为:
min pi,j
Figure BDA00029187671200000410
另外,步骤(3)对于计算卸载任务过程具体如下:
(S31)将优化问题转化为马尔可夫决策模型,进一步分为若干个时间片t,在时间t的系统状态s可表示为:
Figure BDA00029187671200000411
其中
Figure BDA00029187671200000412
表示无人机当前状态下可用计算资源,
Figure BDA00029187671200000413
表示所有边缘服务器当前状态下剩余的可用能源;
在时间t的动作a可表示为:
a(t)={λ0(t),λ1(t)};
其中λ0(t)+λ1(t)=1,分别表示计算任务卸载到路侧单元或者无人机的概率;
(S32)定义π为在状态s选择动作a可能性的策略函数,在策略π下,状态和动作对<s,a>的函数值被定义为Qπ(s,a),其计算公式为:
Figure BDA0002918767120000051
其中σ∈(0,1)是学习速率,δ表示反映未来迭代中的预测奖励的重要性的折扣率;
(S33)令w和w'分别表示训练网络和目标网络的参数集,获取目标Q值,其计算公式为:
Figure BDA0002918767120000052
(S34)训练网络的参数集w根据损失函数进行更新,损失函数表示为:
Loss(w)=E[y(s,a)-Qπ(s,a,w)]2
(S35)利用优化的返回值G(s,a)替代目标Q值y(s,a),更新后的损失函数表示为:
Loss(w)=E[G(s,a)-Qπ(s,a,w)]2
(S36)利用DQN中的优先经验回放,提高深度强化学习过程中的学习性能,利用深度强化学习模型通过离线方式,学习不同任务卸载实例的调度经验,无人机保存训练好的模型进行在线更新。
有益效果:与现有技术相比,本发明所述的一种基于强化学习的可靠车载边缘计算卸载方法以最大化服务效用和最小化计算卸载过程中的能量消耗为目标,提出并解决了边缘计算中的多目标优化问题,此外,为了保证车辆与无人机之间的高可靠性计算卸载,考虑到动态通信信道特性,建立了最小发射功率的机会约束,使用广义的Chebyshev的上限来变换机会约束,并推导出在最坏情况信道条件下满足可靠性要求的所需最小传输功率,在线深度强化学习算法实现在服务效用和能量消耗方面性能的提升。
附图说明
图1为本发明所述方法的流程示意图;
图2为实施例中所构建的系统模型通信架构关系示意图;
图3为实施例中每个单个计算卸载问题的在线深度强化学习算法(Online DRL)的系统效用,以及解决100个计算卸载问题的在线深度强化学习算法(Ave-ODRL)、启发式贪婪算法(Ave-HEU)、优化分支定界算法(Ave-OPT)三种算法的平均系统效用对比图;
图4为实施例中每个单个计算卸载问题的在线深度强化学习算法(Online DRL)的能源消耗,以及解决100个计算卸载问题的在线深度强化学习算法(Ave-ODRL)、启发式贪婪算法(Ave-HEU)、优化分支定界算法(Ave-OPT)三种算法的平均能源消耗对比图。
具体实施方式
为了详细地说明本发明所公开的技术方案,下面结合具体实施例和说明书附图做进一步的阐述。
未来自动驾驶技术的发展重点之一在于车载边缘计算产品的设计。边缘计算,是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务。其应用程序在边缘侧发起,产生更快的网络服务响应,满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间,或处于物理实体的顶端。而云端计算,仍然可以访问边缘计算的历史数据。
本发明所提供的一种基于强化学习的可靠车载边缘计算卸载方法,针对动态环境中进行移动车辆的计算卸载,实现系统效用的最大化和能耗的最小化。为了保证动态计算卸载过程中的可靠性,对传输功率制定了机会约束,该约束保证了高可靠性,且无需假设信道衰落的分布是完全已知的。采用广义的Chebyshev不等式对机会约束进行变换,进一步推导出所需的最小传输功率。另一方面,为了提高卸载效率,降低寻找最优卸载决策的算法复杂度,所述方法包括采用一种改进的在线深度强化学习模型,该模型通过离线方式学习不同任务卸载实例的调度经验,将训练好的模型保存在不同的无人机中,并在线使用/更新,以解决类似的相同规模的任务卸载问题。此外,考虑到问题实例的特殊性质,用可以离线计算的最优解值来周期性地替换预测的目标Q值,以提高模型的收敛速度。通过综合研究,证明了所提出的计算卸载算法的可行性和优异性能。
具体地说,本发明的实施首先是构建车辆通信系统实现车辆与边缘服务器的通信,在本实施例中,边缘服务器即为常规所述的边缘服务器。另外,边缘服务器提出固定式和移动式,即,路侧单元和无人机,作为实施例,路侧单元根据实际的道路交通需要设置在路边或沿途站点,对于无人机则可以通过载体或临时在沿途设置。本实施例给出移动边缘服务器为搭载服务器的无人机,用以处理分配任务或计算任务,也可以作为中继转发计算任务,并实现数据处理结果的反馈。在以无人机为基础,本领域技术人员应该知晓其他定点或临时设置边缘服务器的实施方案。无人机的引入,可以作为边缘服务器,也可以作为中继,可以应对交通量巨大或路侧单元临时瘫痪下的边缘计算服务。
本发明所述方法的流程示意图如图1所示,实施过程具体如下:
Step1、构建研究的系统模型,包括车辆与无人机和路侧单元之间的通信方式。实施例场景设定在公共城市地区,如图2所示,安装路侧单元作为车辆网络基础设施,每一个路侧单元连接一个边缘服务器,由于移动车辆I={1,…,|I|}有大量计算密集型任务J={1,…,|J|},车载单元无法处理,且由于路侧单元的覆盖范围有限以及城市中障碍物(即大量树木和大型建筑)导致通信条件差,车辆和路侧单元之间的计算卸载机会减少,所以在这种情况下,无人机将被派遣协助计算卸载,充当从车辆向路侧单元转发任务的中继,同时也是直接计算车辆计算任务的边缘服务器,它们飞到一群车辆上方的特定位置,根据需要悬停,然后收集车辆的请求,并做出计算卸载决定。此外,依据本发明,由首席无人机收集任务无人机的计算卸载问题,将其上传至边缘服务器进行离线训练,边缘服务器具有强大的计算能力,可以根据新的问题样本训练和更新当前的神经网络模型。首席无人机飞至任务无人机,使其在线更新其网络模型参数。
Step2、根据车辆与无人机和路侧单元之间的通信方式,确定多目标优化问题,具体如下:
多目标优化问题旨在最小化能源消耗,最大化系统效用,其计算公式为:
Figure BDA0002918767120000071
Figure BDA0002918767120000072
Figure BDA0002918767120000073
Figure BDA0002918767120000074
(C4)xi,j∈{0,1}
其中
Figure BDA0002918767120000075
若xi,j=1表示任务vi,j卸载至无人机,若xi,j=0则表示任务vi,j通过无人机作为中继,进一步卸载至路侧单元;
Figure BDA0002918767120000076
表示第i车辆传输第j任务所需的传输功率;Ei,j(x,p)为能源消耗函数,Ui,j(x,p)为系统效用函数;C1表示保证传输可靠性的约束条件,其中γi,j表示信噪比,γtgt表示目标信噪比,1-ε表示可靠性阈值,ε为最大耐受传输错误率;C2表示计算资源总消耗不能超过无人机的最大可用计算能力,其中
Figure BDA0002918767120000077
表示任务vi,j在无人机计算时的频率;C3表示移动车辆分配的传输功率不能超过功率阈值;C4表示二进制变量的约束。具体实施例中,设置移动车辆数|I|=10,每辆车计算任务最大|J|=6。
首先,定义“传输可靠性”为成功传输概率超过给定的可靠性阈值的可能性,其表示公式为:Pr(γi,j≥γtgt)≥1-ε,获取卸载任务vi,j至无人机的信噪比γi,j,其计算公式为:
Figure BDA0002918767120000081
其中K0为系统常量,disi,j表示当第i车辆传输第j任务时与无人机的距离,e表示路径损耗指数,N0表示噪声功率,|hi,j|表示信道衰减参数,符合均值μh和方差Ch的一类分布。本实施例中,设置可靠性阈值为γtgt=0.96,系统常量K0=1,路径损耗指数e=3,噪声功率N0=10-9W,信道衰减参数|hi,j|2满足均值为2,方差为0.4的一类分布,传输距离范围为[100,500]米。
其次,获取任务vi,j从车辆传输至无人机的速率
Figure BDA0002918767120000082
为:
Figure BDA0002918767120000083
其中ωi,j表示任务vi,j所分配的带宽。计算任务vi,j分别卸载至无人机或路侧单元的时延,其计算公式为:
Figure BDA0002918767120000084
基于参数
Figure BDA0002918767120000085
Figure BDA0002918767120000086
获取任务vi,j的总延迟,其计算公式为:
Figure BDA0002918767120000087
其中
Figure BDA0002918767120000088
表示任务vi,j从车辆至无人机的传输速率,
Figure BDA0002918767120000089
表示任务vi,j从无人机至路侧单元的传输速率,
Figure BDA00029187671200000810
Figure BDA00029187671200000811
分别表示任务vi,j在无人机或者路侧单元执行时的计算频率,Ai,j和Bi,j分别表示任务vi,j传输数据和计算数据的大小。
最后,获取系统效用函数Ui,j,其计算方式为:
Ui,j=αi,j log(1+χ-di,j),
获取计算能源消耗Ei,j,其计算公式为:
Figure BDA00029187671200000812
其中αi,j是满意度参数,χ用来调整对数函数使其非负,
Figure BDA0002918767120000091
是任务vi,j在无人机上的传输功率,κu表示有效电容系数,它由无人机的CPU硬件结构决定。具体实施例中,设置满意度参数αi,j=1,有效电容系数κu=10-27
Step3、分解多目标优化任务,其子任务一为功率分配任务:
基于信道衰减参数|hi,j|,引入变量
Figure BDA0002918767120000092
使得
Figure BDA0002918767120000093
Figure BDA0002918767120000094
Figure BDA0002918767120000095
符合如下分布:
Figure BDA0002918767120000096
于是,“传输可靠性”的机会约束可表示为:
Figure BDA0002918767120000097
使用广义的Chebyshev不等式转化机会约束,其表示为:
Figure BDA0002918767120000098
推导出在最坏情况下信道条件下,任务vi,j最小传输功率,其计算公式为:
min pi,j
Figure BDA0002918767120000099
利用给每个计算任务分配最小的传输功率获得可行策略,从而得到帕累托最优解,又从能源消耗公式可得,随着传输功率的增加,能耗也单调增加,随之时延发生变化,导致系统效用也发生改变,这将会产生一个新的卸载策略,所以,利用“ε-约束策略”进行优化问题的松弛。
Step4、分解多目标优化任务,其子任务二为计算卸载任务:
首先,将优化问题转化为马尔可夫决策模型,进一步分为多个时间片t,在时间t的系统状态s可表示为:
Figure BDA00029187671200000910
其中
Figure BDA00029187671200000911
表示无人机当前状态下可用计算资源,
Figure BDA00029187671200000912
表示所有边缘服务器当前状态下剩余的可用能源,在时间t的动作a可表示为:
a(t)={λ0(t),λ1(t)},其中λ0(t)+λ1(t)=1,分别表示计算任务卸载到路侧单元或者无人机的概率,假设计算任务vi,j按照时间t调度,剩余的可用资源将按照如下方式进行更新:
1)如果任务vi,j卸载至无人机,无人机的计算资源是充分的,那么,剩余的可用资源是减去计算任务vi,j后的结果,代理商将通过卸载任务vi,j至无人机获得效用奖励值;
2)如果代理商决定任务vi,j卸载至路侧单元,那么,无人机的计算资源将保持不变,若路侧单元的可用资源对于计算任务vi,j而言是充分的,则剩余的可用资源是减去计算任务vi,j后的结果,代理商获得效用奖励值;
3)如果任务卸载至没有充足资源的边缘服务器(例如无人机,或者路边路侧单元),那么剩余的可用资源将被标记“-1”,代理商将获得效用奖励值0,在这种情况下,下一个状态变为无效,学习过程会提前停止。
其次,定义π为在状态s选择动作a可能性的策略函数,在策略π下,状态和动作对<s,a>的函数值被定义为Qπ(s,a),其计算公式为:
Figure BDA0002918767120000101
其中σ∈(0,1)是学习速率,δ表示反映未来迭代中的预测奖励的重要性的折扣率。在具体实施例中,设置学习速率σ=0.001,折扣率为δ=0.9。
最后,令w和w'分别表示训练网络和目标网络的参数集,获取目标Q值,其计算公式为:
Figure BDA0002918767120000102
训练网络的参数集w根据损失函数进行更新,损失函数表示为:
Loss(w)=E[y(s,a)-Qπ(s,a,w)]2
利用优化的返回值G(s,a)替代目标Q值y(s,a),更新后的损失函数表示为:Loss(w)=E[G(s,a)-Qπ(s,a,w)]2,利用DQN中的优先经验回放,提高深度强化学习过程中的学习性能,利用深度强化学习模型通过离线方式,学习不同任务卸载实例的调度经验,无人机保存训练好的模型进行在线更新。
该方法应用面向智能交通系统,可用于车载语音识别,对行人、交通指示牌和障碍物的图像识别等应用中。每一个车载计算任务可代表一个简单的识别任务。本实施例中为了验证本发明的实际效果,进行了仿真实验,并加入了在线深度强化学习算法(Ave-ODRL)、启发式贪婪算法(Ave-HEU)和优化分支定界算法(Ave-OPT)三种实施方案作为对比。如图3所示,给出了处理单个计算卸载任务的在线深度强化学习算法(Online DRL)的效用,以及解决100个计算卸载任务的Ave-ODRL、Ave-HEU及Ave-OPT的平均效用作为对比,为了清楚起见,本实施例根据Online DRL实现的效用对计算卸载问题进行排序,可得Ave-ODRL的效用是在Ave-HEU和Ave-OPT之间,对于超过80%的计算卸载问题,Online DRL实现了比HEU更高的效用。图4则更好地说明了Ave-ODRL的平均能耗低于OPT和HEU,通过根据能耗对计算卸载问题进行排序可得,与HEU算法相比,Online DRL算法以较低的能量消耗卸载了超过70%的计算任务。

Claims (5)

1.一种基于强化学习的可靠车载边缘计算卸载方法,其特征在于:包括如下步骤:
(1)构建车辆通信系统实现车辆与边缘服务器的通信,所述车辆包括搭载有数据中心,所述边缘服务器包括路侧单元及无人机;
(2)建立车辆与边缘服务器的通信网络,确定边缘计算的多目标优化问题和约束条件,具体数学模型表达式如下所示:
Figure FDA0002918767110000011
Figure FDA0002918767110000012
Figure FDA0002918767110000013
Figure FDA0002918767110000014
(C4)xi,j∈{0,1},
其中
Figure FDA0002918767110000015
若xi,j=1表示任务vi,j卸载至无人机,若xi,j=0则表示任务vi,j通过无人机作为中继,且卸载至路侧单元;
Figure FDA0002918767110000016
表示第i车辆传输第j任务所需的传输功率;C1表示保证传输可靠性的约束条件,其中γi,j表示信噪比,γtgt表示目标信噪比,1-ε表示可靠性阈值,ε为最大耐受传输错误率;C2表示计算资源总消耗不能超过无人机的最大可用计算能力,其中
Figure FDA0002918767110000017
表示任务vi,j在无人机计算时的频率;C3表示移动车辆分配的传输功率不能超过功率阈值;C4表示二进制变量的约束;
(3)基于最小化能源消耗和最大化系统效用为目标,分解多目标优化任务,确定功率分配任务和计算卸载任务;
(4)根据车辆与边缘服务器构建的通信网络,边缘服务器完成车载边缘计算任务并反馈至车辆。
2.根据权利要求1所述的基于强化学习的可靠车载边缘计算卸载方法,其特征在于:步骤(1)所述路侧单元为设置在道路旁的固定式服务器,所述无人机搭载有服务器,包括处理车辆数据中心的计算任务或作为中继将该计算任务进行转发至路侧单元。
3.根据权利要求1所述的基于强化学习的可靠车载边缘计算卸载方法,其特征在于:步骤(2)还包括如下计算过程:
(21)定义“传输可靠性”为成功传输概率超过给定的可靠性阈值的可能性,其数学表达式为:
Pr(γi,j≥γtgt)≥1-ε;
(22)获取卸载任务vi,j至无人机的信噪比γi,j,其计算公式为:
Figure FDA0002918767110000021
其中K0为系统常量,disi,j表示当第i车辆传输第j任务时与无人机的距离,e表示路径损耗指数,N0表示噪声功率,|hi,j|表示信道衰减参数,符合均值μh和方差Ch的一类分布;
(23)获取任务vi,j从车辆传输至无人机的速率
Figure FDA0002918767110000022
为:
Figure FDA0002918767110000023
其中ωi,j表示任务vi,j所分配的带宽;
(24)计算任务vi,j分别卸载至无人机或路侧单元的时延,其计算公式为:
Figure FDA0002918767110000024
Figure FDA0002918767110000025
其中
Figure FDA0002918767110000026
表示任务vi,j从车辆至无人机的传输速率,
Figure FDA0002918767110000027
表示任务vi,j从无人机至路侧单元的传输速率,
Figure FDA0002918767110000028
Figure FDA0002918767110000029
分别表示任务vi,j在无人机或者路侧单元执行时的计算频率,Ai,j和Bi,j分别表示任务vi,j传输数据和计算数据的大小;
(25)基于参数
Figure FDA00029187671100000210
Figure FDA00029187671100000211
获取任务vi,j的总延迟,其计算公式为:
Figure FDA00029187671100000212
(26)获取系统效用函数Ui,j,其计算方式为:
Ui,j=αi,j log(1+χ-di,j);
其中αi,j是满意度参数,χ用来调整对数函数使其非负;
(27)获取计算能源消耗Ei,j,其计算公式为:
Figure FDA0002918767110000031
其中
Figure FDA0002918767110000032
是任务vi,j在无人机上的传输功率,κu表示有效电容系数,由无人机的CPU硬件结构决定。
4.根据权利要求1所述的基于强化学习的可靠车载边缘计算卸载方法,其特征在于:步骤(3)对于功率分配任务的具体计算过程如下:
(s31)基于信道衰减参数|hi,j|,引入变量
Figure FDA0002918767110000033
使得
Figure FDA0002918767110000034
Figure FDA0002918767110000035
Figure FDA0002918767110000036
符合如下分布:
Figure FDA0002918767110000037
(s32)“传输可靠性”的机会约束可表示为:
Figure FDA0002918767110000038
(s33)使用广义的Chebyshev不等式转化机会约束,其表示为:
Figure FDA0002918767110000039
(s34)满足高度可靠的通信要求,推导出在最坏情况的信道条件下,成功传输任务vi,j所需要的最小传输功率,其计算公式为:
min pi,j
Figure FDA00029187671100000310
5.根据权利要求1所述的基于强化学习的可靠车载边缘计算卸载方法,其特征在于:步骤(3)对于计算卸载任务过程具体如下:
(S31)将多目标优化任务转化为马尔可夫决策模型,划分为若干个时间片t,在时间t的系统状态s可表示为:
Figure FDA0002918767110000041
其中
Figure FDA0002918767110000042
表示无人机当前状态下可用计算资源,
Figure FDA0002918767110000043
表示所有边缘服务器当前状态下剩余的可用能源;
在时间t的动作a可表示为:
a(t)={λ0(t),λ1(t)};
其中λ0(t)+λ1(t)=1,分别表示计算任务卸载到路侧单元或者无人机的概率;
(S32)定义π为在状态s选择动作a可能性的策略函数,在策略π下,状态和动作对<s,a>的函数值被定义为Qπ(s,a),其计算公式为:
Figure FDA0002918767110000044
其中σ∈(0,1)是学习速率,δ反映在未来迭代中的预测奖励的重要性的折扣率;
(S33)令w和w'分别表示训练网络和目标网络的参数集,获取目标Q值,其计算公式为:
Figure FDA0002918767110000045
(S34)训练网络的参数集w根据损失函数进行更新,损失函数表示为:
Loss(w)=E[y(s,a)-Qπ(s,a,w)]2
(S35)利用优化的返回值G(s,a)替代目标Q值y(s,a),更新后的损失函数表示为:
Loss(w)=E[G(s,a)-Qπ(s,a,w)]2
(S36)利用DQN中的优先经验回放,提高深度强化学习过程中的学习性能,利用深度强化学习模型通过离线方式,学习不同任务卸载实例数据的调度经验,无人机保存训练好的模型进行在线更新。
CN202110109732.4A 2021-01-27 2021-01-27 一种基于强化学习的可靠车载边缘计算卸载方法 Active CN112929849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110109732.4A CN112929849B (zh) 2021-01-27 2021-01-27 一种基于强化学习的可靠车载边缘计算卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110109732.4A CN112929849B (zh) 2021-01-27 2021-01-27 一种基于强化学习的可靠车载边缘计算卸载方法

Publications (2)

Publication Number Publication Date
CN112929849A true CN112929849A (zh) 2021-06-08
CN112929849B CN112929849B (zh) 2022-03-01

Family

ID=76166899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110109732.4A Active CN112929849B (zh) 2021-01-27 2021-01-27 一种基于强化学习的可靠车载边缘计算卸载方法

Country Status (1)

Country Link
CN (1) CN112929849B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821323A (zh) * 2021-09-16 2021-12-21 中山大学 一种面向混合部署数据中心场景的离线作业任务调度算法
CN114698125A (zh) * 2022-06-02 2022-07-01 北京建筑大学 移动边缘计算网络的计算卸载优化方法、装置及系统
CN114706094A (zh) * 2022-06-07 2022-07-05 青岛慧拓智能机器有限公司 卸载点位的卸载可用状态检测方法、装置及计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN110968075A (zh) * 2019-12-13 2020-04-07 南京航空航天大学 一种基于主动学习自组织蜂窝网络的故障诊断方法及系统
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
US20200229206A1 (en) * 2017-12-30 2020-07-16 Intel Corporation Methods and devices for wireless communications
CN111787509A (zh) * 2020-07-14 2020-10-16 中南大学 边缘计算中基于强化学习的无人机任务卸载方法及系统
CN111915142A (zh) * 2020-07-07 2020-11-10 广东工业大学 一种基于深度强化学习的无人机辅助资源分配方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200229206A1 (en) * 2017-12-30 2020-07-16 Intel Corporation Methods and devices for wireless communications
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN110968075A (zh) * 2019-12-13 2020-04-07 南京航空航天大学 一种基于主动学习自组织蜂窝网络的故障诊断方法及系统
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN111915142A (zh) * 2020-07-07 2020-11-10 广东工业大学 一种基于深度强化学习的无人机辅助资源分配方法
CN111787509A (zh) * 2020-07-14 2020-10-16 中南大学 边缘计算中基于强化学习的无人机任务卸载方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JUNHUA WANG: "Delay-Sensitive Multi-Period Computation Offlading with Reliability Guarantees in Fog Networks", 《IEEE TRANSACTIONS ON MOBILE COMPUTING》 *
KE ZHENG: "UAV-assisted Online Video Downloading in Vehicle Networks:A Reinforment Learning Apporach", 《2020 IEEE 91ST VEHICULAR TECHNOLOGY CONFERENCE(VTC2020-SPRING)》 *
YI LIU: "Deep Reinforcement Learning for Offloading and Resoure Allocation in Vehicle Edge Computing and Networks", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
马小婷: "基于MEC的车联网协作组网关键技术", 《电信科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821323A (zh) * 2021-09-16 2021-12-21 中山大学 一种面向混合部署数据中心场景的离线作业任务调度算法
CN113821323B (zh) * 2021-09-16 2023-09-19 中山大学 一种面向混合部署数据中心场景的离线作业任务调度算法
CN114698125A (zh) * 2022-06-02 2022-07-01 北京建筑大学 移动边缘计算网络的计算卸载优化方法、装置及系统
CN114706094A (zh) * 2022-06-07 2022-07-05 青岛慧拓智能机器有限公司 卸载点位的卸载可用状态检测方法、装置及计算机设备

Also Published As

Publication number Publication date
CN112929849B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN112929849B (zh) 一种基于强化学习的可靠车载边缘计算卸载方法
CN112351503B (zh) 基于任务预测的多无人机辅助边缘计算资源分配方法
Chen et al. A multihop task offloading decision model in mec-enabled internet of vehicles
CN111124647B (zh) 一种车联网中的智能边缘计算方法
CN111787509B (zh) 边缘计算中基于强化学习的无人机任务卸载方法及系统
CN109120457B (zh) 基于分布式软件定义架构的智能云的业务处理方法
CN111935303B (zh) 空地一体化车联网中基于意图感知的任务卸载方法
CN113254188B (zh) 调度优化方法和装置、电子设备及存储介质
CN113543074A (zh) 一种基于车路云协同的联合计算迁移和资源分配方法
Ouyang et al. Trust based task offloading scheme in UAV-enhanced edge computing network
Nguyen et al. DRL-based intelligent resource allocation for diverse QoS in 5G and toward 6G vehicular networks: a comprehensive survey
CN114650567B (zh) 一种无人机辅助v2i网络任务卸载方法
Zhu et al. Path planning of multi-UAVs based on deep Q-network for energy-efficient data collection in UAVs-assisted IoT
CN113282352A (zh) 基于多无人机协同辅助边缘计算的节能卸载方法
WO2022242468A1 (zh) 任务卸载方法、调度优化方法和装置、电子设备及存储介质
Jung et al. Adaptive and stabilized real-time super-resolution control for UAV-assisted smart harbor surveillance platforms
CN115835294A (zh) 车联网中深度强化学习辅助的ran切片和任务卸载联合优化方法
Ge et al. Interference aware service migration in vehicular fog computing
Li et al. DNN Partition and Offloading Strategy with Improved Particle Swarm Genetic Algorithm in VEC
CN116208968B (zh) 基于联邦学习的轨迹规划方法及装置
CN116709249A (zh) 一种关于车联网中边缘计算的管理方法
CN117221951A (zh) 车载边缘环境下基于深度强化学习的任务卸载方法
CN115967430A (zh) 一种基于深度强化学习的成本最优空地网络任务卸载方法
CN116193396A (zh) 空天地一体化车联网中基于切片的协作式任务卸载方法
CN115915069A (zh) 一种无人机搭载ris辅助车辆网络通信方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant