CN113422795B - 一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法 - Google Patents

一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法 Download PDF

Info

Publication number
CN113422795B
CN113422795B CN202110488718.XA CN202110488718A CN113422795B CN 113422795 B CN113422795 B CN 113422795B CN 202110488718 A CN202110488718 A CN 202110488718A CN 113422795 B CN113422795 B CN 113422795B
Authority
CN
China
Prior art keywords
task
vehicle
network
tasks
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110488718.XA
Other languages
English (en)
Other versions
CN113422795A (zh
Inventor
李致远
徐丙磊
彭二帅
毕俊蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202110488718.XA priority Critical patent/CN113422795B/zh
Publication of CN113422795A publication Critical patent/CN113422795A/zh
Application granted granted Critical
Publication of CN113422795B publication Critical patent/CN113422795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法,包括步骤:1.获取车辆任务可接入RSU的信息、车载任务的信息等;2.将车载任务边缘调度与资源分配决策方法转化为数学问题,进行数学建模;3.使用深度强化学习方法求解步骤2中的数学模型;4.将算法部署至软件定义的中央控制器。本发明充分考虑每个车载任务对边缘计算服务器负荷的影响、各个车载任务之间影响,在保证在规定时间内完成计算车载任务、保证各个边缘计算服务器的负载均衡的同时,使得边缘计算服务器提供商的利益最大化。

Description

一种基于深度强化学习的车载边缘任务集中调度与资源分配 联合优化方法
技术领域
本发明属于车载移动边缘计算领域,是车载任务边缘调度与资源分配方法,小型基站(small-cell base stations)环境中。特别适合局域网内的小型基站负载均衡。
背景技术
车联网(Internet of Vehicles,loV)是一种新兴的技术,它通过网络将车辆设备连接起来,能够使车辆设备与其它计算设备合作。各种车辆应用如高精度导航、危险感知、自动驾驶等的不断发展,提高了车辆用户驾驶的便利性与安全性,但与此同时各个应用对车辆计算性能的要求越来越高。在这种情况下,传统的以云为中心的计算范式无法适应大量的计算任务。为了应对这一挑战,出现了一种新的计算范式:移动边缘计算(Mobile EdgeComputing,MEC),它允许车辆将自身的车载任务移送至网络边缘进行计算。由于许多计算任务可以在数据源附近完成,所以可以分布式的平衡计算负载。
目前主流的平衡计算负载仅仅涉及到服务器与服务器之间的计算资源分配,并未考虑到单一服务器给每个车载任务计算资源的分配。这样便忽略了单个车载任务对整个负载均衡的影响。单个任务计算资源分配的受到车载任务自身对延迟的要求、计算此任务得到的收益、其它车载任务当前服务器的负荷、计算其它车载任务所得的收益以及对该服务器造成的负荷等。综合以上情况,需要提出一种车载任务边缘调度与资源分配决策方法,它能够应对车载任务的卸载情景并可考虑多种影响因素。
本发明主要研究通过软件定义网络(Software Defined Network,SDN)获取网络全局的状态感知数据,例如获取该区域中所有车载任务的数目、该区域中MEC服务器的负载状态,并再次基础上结合深度强化学习模型给出车载任务边缘调度与资源分配决策的建议。
发明内容
针对上述问题,本发明提出一种基于深度学习的软件定义车载任务边缘调度与资源分配决策方法,以解决计算车载任务而导致服务器负载不均衡的问题,该方法包括如下步骤:
步骤1,获取车辆接入的RSU的集合r、请求在RSU区域中的卸载的车辆的任务的相关信息、RSU对应的服务器负载;
步骤2,将车载任务边缘调度与资源分配决策方法转化为数学问题,进行数学建模;
步骤3,建立马尔可夫模型并求解(2)中的数学问题;
步骤4,将算法部署至SDN控制器。
进一步,步骤1中所述的信息包括:
①任务的计算时延约束定义为t={T1,…,Tj,…,Tn},其中,Tj表示第j个车载任务的延迟约束;
②将车载任务可能送入的边缘服务器集合定义为:ser={SER1,…,SERi,…SERn},其中SERi表示第i台边缘服务器;
③服务器的CPU时钟周期定义为h={H1,…Hi,...,Hn},其中Hi表示SERi的CPU时钟周期;
④当前需要处理的车载任务集合为q={Q1,…,Qj,…,Qn},其中Qj表示第j个车载任务;
⑤车载任务j占用的CPU周期数为
Figure BDA0003051470650000021
其中i表示服务器SERi
Figure BDA0003051470650000022
m={m1,…,mi,…,mn},其中mi表示服务器SERi中所有任务的占用的CPU周期数集合,m则为所有服务器中任务所占CPU周期数的集合。
⑥服务器的CPU占用率定义为util={U1,…,Ui,…,Un},其中Ui表示服务器SERi的CPU占用率。
进一步,步骤2中将车载任务边缘调度与资源分配决策方法转化为数学问题的方法为:
步骤2.1,考虑到计算车载任务受当前CPU时钟周期与CPU占用率影响,定义计算车载任务所用时长为
Figure BDA0003051470650000023
Figure BDA0003051470650000024
步骤2.2,定义任务j之前共有n-1个车载任务送入同一个服务器i进行计算,则任务j的计算延迟为
Figure BDA0003051470650000031
任务j是第n个任务,则:
Figure BDA0003051470650000032
其中
Figure BDA0003051470650000033
表示任务j之前的任务x的计算延迟,任务x之前共有n-2个任务。
步骤2.3,根据步骤2.2,则任意服务器i中所有任务的计算延迟总和为:
Figure BDA0003051470650000034
其中,Ni表示服务器SERi中所有任务的数量。
步骤2.4,根据步骤2.3,则所有服务器中的所有任务的计算延迟总和为:
Figure BDA0003051470650000035
其中,I表示所有服务器的总量。
步骤2.5,由于服务器利用率受到新达到的车载任务影响,需重新计算CPU利用率util=util(m,z):
Figure BDA0003051470650000036
其中,ρ表示计算两个任务之间的时间间隔;z={z1,…,zj,…zn},zj={1,0},当zj=1时,表示任务j被服务器运算,当zj=0时表示任务j没有被服务器运算。
步骤2.6,计算RSU的热度标准差。RSU热度用来衡量涌入某个RSU的车载任务的计算量,RSU的热度标准差用来衡量各个RSU的负载均衡的程度,其计算方式如下:
Figure BDA0003051470650000037
其中,μ表示各个RSU的计算量的平均值。
步骤2.7,结合步骤2.4、步骤2.5、步骤2.6,将车载任务边缘调度与资源分配决策方法转化为求解下列式子
Figure BDA0003051470650000038
其中ξ为权重。
进一步,建立马尔可夫模型并求解式(7)中的数学问题。求解式(1)的关键在于寻找车载任务的最佳放置序列以及各个任务分配的最合理计算资源。其具体步骤为:
步骤3.1,建立马尔可夫状态空间S:
S={t,h,util} (8)
其中各个参数说明如下:
①t={T1,…,Tj,…,Tn},为车载任务q的计算延迟约束集合;
②h={H1,…,Hi,…,Hn},为节点中服务器ser的CPU周期;
③util={U1,…,Ui,…,Un},为节点中服务器ser的CPU占用率;
步骤3.2,建立马尔可夫动作空间A:
A={a,orderQSer} (9)
其中各个参数说明如下:
①a为车载任务q在各个服务器中分配到的计算资源,a={a0,…,ay,…ak},其中
Figure BDA0003051470650000041
其中a0表示没有被分配到计算资源,即车载任务没有被计算;
②orderQSer表示车载任务q在各个服务器中的放置顺序。其中orderQSer={qSER1,…,qSERx,…qSERn},qSERx表示在SERx中的车载任务集合,其中
Figure BDA0003051470650000042
Figure BDA0003051470650000043
表示车载任务Qj在服务器SERx中接收的任务中放置在第order的位置;
步骤3.3,建立马尔可夫奖励函数reward
reward=ε(η)×base+κ×(t-(TRun(m,h,util)+Dn-1))+ξ×ε(S)/σ(m,μ) (10)
其中各个参数说明如下:
①ε(η)为阶跃函数
Figure BDA0003051470650000044
ε(η)=1时表示车载任务被成功计算,ε(η)=0表示车载任务没有被成功计算;
②base为常数,表示基础奖励。ε(η)×base表示当一个车载任务被成功计算后会获得基础奖励,失败则不会获得基础奖励;
③TRun(m,h,util)+Dn-1表示计算一个车载任务所造成的计算延迟;
④κ×(t-(TRun(m,h,util)+Dn-1)),其中κ为权重,t为该车载任务允许的最大计算延迟,则κ×(t-(TRun(m,h,util)+Dn-1))表示计算该车载任务节省的时间越多则获取到的奖励越多;相反的,如果计算该任务超出了规定的最大时长,则会受到惩罚,超出的时间越多,获得的惩罚越多;
⑤ε(S)是阶跃函数,
Figure BDA0003051470650000051
ξ为权重,则ξ×ε(S)/σ(m,μ)表示当所有车载任务计算完成后,则计算各个RSU的热度标准差(负载均衡的程度),热度标准差越小则获取的奖励越多,否则获取的奖励越少。
步骤3.4,根据步骤3.3中的马尔可夫模型,使用DDQN算法求解式子(1),得到车载任务边缘调度与资源分配的最优结果,具体步骤如下:
步骤3.4.1,建立当前Q网络、目标Q网络,这两个网络的说明如下:
①当前Q网络的网络参数为ω,ω也代指神经网络。ω用来根据当前的状态S选择动作A。动作A作用于当前状态S,生成状态S'和奖励R,奖励R由奖励函数reward获得;
②目标Q网络的网络参数为ω',ω'也代指神经网络,用来评估当前状态的价值,并帮助当前Q网络ω的更新。
步骤3.4.2,训练当前Q网络、目标Q网络。具体步骤如下:
3.4.2.1,获得当前状态S及其特征向量φ(S);
3.4.2.2,当前Q网络根据状态S生成动作A;
3.4.2.3,根据状态S和动作A计算奖励R,并获取下一状态S'并计算其特征向量φ(S'),将S'定义为当前状态;
3.4.2.4,将之前获取的{φ(S),A,R,φ(S')}存入经验回放池中;
3.4.2.5,计算当前Q网络的Q值;
3.4.2.6,更新当前Q网络参数ω,目标Q网络参数ω';
3.4.2.7,如果当前状态S'是终止状态,则迭代完毕,否则转到步骤3.4.2.1。
步骤3.4.3,由训练好的当前Q网络获得车载任务边缘调度与资源分配决策的最优结果。
进一步,在实际应用中,步骤4将算法部署至SDN控制器的具体方法为:
DDQN算法训练完成后,保存当前Q网络并将其部署至SDN控制器。当有车载任务的计算要求时,由SDN控制器根据当前网络节点的相关信息,由部署好的当前Q网络得出车载任务边缘调度与资源分配决策的最优结果。
本发明的有益效果:
本发明可以根据不同车载任务的延迟要求,将车载任务按照一定的序列进行处理并分配相应的计算资源,这有助于降低车载任务的响应时间并提高计算资源的利用率。此外,在此过程中避免车载任务的不均匀分配,以免由车载任务激增而导致节点崩溃。
本发明将软件定义网络的集中控制与深度学习技术相结合,实现全网的智能优化与决策以解决车载任务在边缘计算系统中实时处理所遇到的关键技术难题,包括车载任务卸载失败、车载任务调度与资源分配不当引发系统负载不均衡及任务处理等待时间增长、车载任务回收失败等。
附图说明
图1车载任务边缘调度与资源分配决策流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,假设此时车辆j将车载任务Qj发送至RSU,则根据本发明具体的实施方式如下:
(1)使用SDN控制器收集相关信息。各个局域网中边缘服务器的集合为ser、边缘服务器的时钟周期集合h、边缘服务器的CPU占用率集合util、需要处理的车载任务集合q、各个车载任务占用的CPU周期集合m;
(2)根据(1)中获取的数据,计算任务Qj的计算延迟:
Figure BDA0003051470650000071
(3)SDN汇总其它车辆与边缘服务器的信息,计算所有服务器中的车载任务的计算延迟:
Figure BDA0003051470650000072
(4)SDN汇总边缘服务器的负载信息,将车载任务边缘调度与资源分配决策方法转化为求解下列数学公式:
Figure BDA0003051470650000073
(5)使用DDQN算法求解(4)中的数学问题。具体实施方式如下:
1.首先获得初始化状态,即当前车载任务和边缘服务器的相关信息。当前Q网络根据状态S生成动作A,动作A即每个任务分配到的计算资源。具体方法为A=maxQ(φ(S),a,ω),表示在当前状态S下,神经网络ω根据状态S的特征向量φ(S)在所有动作a中选出对应Q值最大的动作。
2.根据状态S与动作A计算奖励R,并产生新的状态S'。计算了当前车载任务后,等待计算的车载任务数量以及边缘服务器的各种状态均发生了变化,新的状态即为S';
3.将之前获取的{φ(S),A,R,φ(S')}存入经验回放池中,经验回放池用来帮助训练目标Q网络;
4.使用公式
y=R+Q′(φ(S′),maxa'Q(φ(S′j),a,ω),ω′)
计算当前Q值,其中maxa'Q(φ(S′),a,ω)表示使用神经网络ω选择动作a',Q′(φ(S′),maxa'Q(φ(S′j),a,ω),ω′)表示使用神经网络ω′计算状态S'时动作
A'对应的Q值。
5.更新当前网络Q
ω←ω+(y-Q(φ(S),A,ω))
6.更新目标网络Q
ω'=ω
目标网络Q定期被当前网络Q覆盖,即为目标网络Q的更新方式;
检查当前状态S'是否为结束状态,如果是结束状态,则迭代完毕,否则跳转至1。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法,其特征在于,包括如下步骤:
步骤1,获取车辆接入的RSU的集合r、请求在RSU区域中的卸载的车辆的任务的相关信息、RSU对应的服务器负载;
步骤2,将车载任务边缘调度与资源分配决策方法转化为数学问题,进行数学建模;
所述步骤2中进行数学建模的方法包括如下:
步骤2.1,考虑到计算车载任务受当前CPU时钟周期与CPU占用率影响,定义计算车载任务所用时长为
Figure FDA0003762680430000011
其计算方法为:
Figure FDA0003762680430000012
步骤2.2,定义任务j之前共有n-1个车载任务送入同一个服务器i进行计算,则任务j的计算延迟为
Figure FDA0003762680430000013
表示任务j的计算延迟,任务j是第n个任务,则:
Figure FDA0003762680430000014
其中
Figure FDA0003762680430000015
表示任务j之前的任务x的计算延迟,任务x之前共有n-1个任务;
步骤2.3,根据步骤2.2,则任意服务器i中所有任务的计算延迟总和为:
Figure FDA0003762680430000016
其中,Ni表示服务器SERi中所有任务的数量;
步骤2.4,根据步骤2.3,则所有服务器中的所有任务的计算延迟总和为:
Figure FDA0003762680430000017
其中,I表示所有服务器的总量;
步骤2.5,由于服务器利用率受到新达到的车载任务影响,需重新计算CPU利用率util=util(m,z):
Figure FDA0003762680430000018
其中,ρ表示计算两个任务之间的时间间隔;z={z1,…,zj,…zn},zj={1,0},当zj=1时,表示任务j被服务器运算,当zj=0时表示任务j没有被服务器运算;
步骤2.6,计算RSU的热度标准差;RSU热度用来衡量涌入某个RSU的车载任务的计算量,RSU的热度标准差用来衡量各个RSU的负载均衡的程度,其计算方式如下:
Figure FDA0003762680430000021
其中,μ表示各个RSU的计算量的平均值;
步骤2.7,结合步骤2.4、步骤2.5、步骤2.6,将车载任务边缘调度与资源分配决策转化为求解下列式(7)
Figure FDA0003762680430000022
其中ξ为权重;
步骤3,建立马尔可夫模型并求解步骤2中的数学模型;
建立马尔可夫模型求解式(1)的具体步骤包括如下:
步骤3.1,建立马尔可夫状态空间S:
S={t,h,util} (8)
其中各个参数说明如下:
①t={T1,…,Tj,…,Tn},为车载任务q的计算延迟约束集合;
②h={H1,…,Hi,…,Hn},为节点中服务器ser的CPU周期;
③util={U1,…,Ui,…,Un},为节点中服务器ser的CPU占用率;
步骤3.2,建立马尔可夫动作空间A:
A={a,orderQSer} (9)
其中各个参数说明如下:
①a为车载任务q在各个服务器中分配到的计算资源,a={a0,…,ay,…ak},其中ay-1<ay,
Figure FDA0003762680430000031
其中a0表示没有被分配到计算资源,即车载任务没有被计算;
②orderQSer表示车载任务q在各个服务器中的放置顺序,其中orderQSer={qSER1,…,qSERx,…qSERn},qSERi表示在SERx中的车载任务集合,其中
Figure FDA0003762680430000032
表示车载任务Qj在服务器SERx中接收的任务中放置在第order的位置;
步骤3.3,建立马尔可夫奖励函数
reward=ε(η)×base+κ×(t-(TRun(m,h,util)+Dn-1))+ξ×ε(S)/σ(m,μ) (10)
其中各个参数说明如下:
①ε(η)为阶跃函数
Figure FDA0003762680430000033
其中,ε(η)=1时表示车载任务被成功计算,ε(η)=0表示车载任务没有被成功计算;
②base为常数,表示基础奖励,ε(η)×base表示当一个车载任务被成功计算后会获得基础奖励,失败则不会获得基础奖励;
③TRun(m,h,util)+Dn-1表示计算一个车载任务所造成的计算延迟;
④κ×(t-(TRun(m,h,util)+Dn-1)),其中κ为权重,t为该车载任务允许的最大计算延迟,则κ×(t-(TRun(m,h,util)+Dn-1))表示计算该车载任务节省的时间越多则获取到的奖励越多;相反的,如果计算该任务超出了规定的最大时长,则会受到惩罚,超出的时间越多,获得的惩罚越多;
⑤ε(S)是阶跃函数:
Figure FDA0003762680430000034
ξ为权重,则ξ×ε(S)/σ(m,μ)表示当所有车载任务计算完成后,则计算各个RSU的热度标准差,热度标准差越小则获取的奖励越多,否则获取的奖励越少;
步骤3.4,根据上述步骤建立的马尔可夫模型,使用DDQN算法求解式子(1),得到车载任务边缘调度与资源分配的最优结果;
所述步骤3.4的具体过程如下:
步骤3.4.1,建立当前Q网络,目标Q网络,这两个网络的说明如下:
①当前Q网络的网络参数为ω,ω也代指神经网络,ω用来根据当前的状态S选择动作A,动作A作用与当前状态S,生成状态S'和奖励R,奖励R由奖励函数reward获得;
②目标Q网络的网络参数为ω',ω'也代指神经网络,用来评估当前状态的价值,并帮助前Q网络ω的更新;
步骤3.4.2,训练当前Q网络,目标Q网络;
步骤3.4.3,由训练好的当前Q网络得出车载任务边缘调度与资源分配决策的最优结果;
所述步骤3.4.2的具体过程如下:
3.4.2.1,获得当前状态S及其特征向量φ(S);
3.4.2.2,当前Q网络根据状态S生成动作A;
3.4.2.3,根据状态S和动作A计算奖励R,并获取下一状态S'并计算其特征向量φ(S'),将S'定义为当前状态;
3.4.2.4,将之前获取的{φ(S),A,R,φ(S')}存入经验回放池中;
3.4.2.5,计算当前Q网络的Q值;
3.4.2.6,更新当前Q网络参数ω,目标Q网络参数ω';
3.4.2.7,如果当前状态S'是终止状态,则迭代完毕,否则转到步骤3.4.2.1。
2.根据权利要求1所述的一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法,其特征在于,所述步骤1中的相关信息包括:
①任务的计算时延约束定义为t={T1,…,Tj,…,Tn};
②将车载任务可能送入的边缘服务器集合定义为ser={SER1,…,SERi,…SERn};
③服务器的CPU时钟周期定义为h={H1,…,Hn},其中Hi表示SERi的CPU时钟周期;
④当前需要处理的车载任务集合为q={Q1,…,Qj,…,Qn}
⑤车载任务j占用的CPU周期数为Mji,其中i表示服务器SERi
Figure FDA0003762680430000051
m={m1,…,mi,…,mn};
⑥服务器的CPU占用率定义为util={U1,…,Ui,…,Un},其中Ui表示服务器SERi的CPU占用率。
3.根据权利要求1所述的一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法,其特征在于,所述步骤3中,建立马尔可夫模型求解式(7)的关键在于寻找车载任务的最佳放置序列以及各个任务分配的最合理计算资源。
4.根据权利要求1所述的一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法,其特征在于,还包括步骤4,将所述训练好的当前Q网络部署至SDN控制器。
5.根据权利要求4所述的一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法,其特征在于,在应用时,当有车载任务的计算要求时,由SDN控制器根据当前网络节点的各种信息,由部署的当前Q网络得出车载任务边缘调度与资源分配决策的最优结果。
CN202110488718.XA 2021-05-06 2021-05-06 一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法 Active CN113422795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110488718.XA CN113422795B (zh) 2021-05-06 2021-05-06 一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110488718.XA CN113422795B (zh) 2021-05-06 2021-05-06 一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法

Publications (2)

Publication Number Publication Date
CN113422795A CN113422795A (zh) 2021-09-21
CN113422795B true CN113422795B (zh) 2022-11-18

Family

ID=77712030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110488718.XA Active CN113422795B (zh) 2021-05-06 2021-05-06 一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法

Country Status (1)

Country Link
CN (1) CN113422795B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757352B (zh) * 2022-06-14 2022-09-23 中科链安(北京)科技有限公司 智能体训练方法、跨域异构环境任务调度方法及相关装置
CN117194057B (zh) * 2023-11-08 2024-01-23 贵州大学 一种基于强化学习优化边缘能耗与负载的资源调度方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109756378B (zh) * 2019-01-12 2021-07-16 大连理工大学 一种车载网络下的智能计算卸载方法
CN110312231B (zh) * 2019-06-28 2022-03-18 重庆邮电大学 车联网中基于mec的内容缓存决策和资源分配优化方法
CN111866807B (zh) * 2020-06-22 2022-10-28 江苏大学 一种基于深度强化学习的软件定义车载任务细粒度卸载方法

Also Published As

Publication number Publication date
CN113422795A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN110213796B (zh) 一种车联网中的智能资源分配方法
CN111556461B (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN113422795B (zh) 一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法
CN113326126B (zh) 任务处理方法、任务调度方法、装置及计算机设备
CN105550323B (zh) 一种分布式数据库负载均衡预测方法和预测分析器
CN113346944A (zh) 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN105744006A (zh) 一种面向多类型服务的粒子群优化用户请求调度方法
CN114443249A (zh) 一种基于深度强化学习的容器集群资源调度方法及系统
CN112732444A (zh) 一种面向分布式机器学习的数据划分方法
CN114564312A (zh) 一种基于自适应深度神经网络的云边端协同计算方法
Sellami et al. Deep reinforcement learning for energy-efficient task scheduling in SDN-based IoT network
CN116467082A (zh) 一种基于大数据的资源分配方法及系统
CN114757352A (zh) 智能体训练方法、跨域异构环境任务调度方法及相关装置
CN116916386A (zh) 一种考虑用户竞争和负载的大模型辅助边缘任务卸载方法
CN112417748B (zh) 一种调度自动驾驶仿真任务的方法、系统、设备及介质
CN113190342A (zh) 用于云-边协同网络的多应用细粒度卸载的方法与系统架构
CN115514787B (zh) 用于车联网环境的智能无人机辅助决策规划方法及装置
CN111488208A (zh) 基于可变步长蝙蝠算法的边云协同计算节点调度优化方法
US11513866B1 (en) Method and system for managing resource utilization based on reinforcement learning
CN116367190A (zh) 一种面向6g移动网络的数字孪生功能虚拟化方法
CN114090239A (zh) 一种基于模型的强化学习的边缘资源调度方法和装置
CN116033026A (zh) 一种资源调度方法
CN108053026A (zh) 一种移动应用后台请求自适应调度算法
CN113256128A (zh) 电力物联网中使用强化学习均衡资源使用的任务调度方法
CN117171261B (zh) 面向多数据库单元的弹性扩展智能调用方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant