CN114363857B - 一种车联网中边缘计算任务卸载方法 - Google Patents

一种车联网中边缘计算任务卸载方法 Download PDF

Info

Publication number
CN114363857B
CN114363857B CN202210274496.6A CN202210274496A CN114363857B CN 114363857 B CN114363857 B CN 114363857B CN 202210274496 A CN202210274496 A CN 202210274496A CN 114363857 B CN114363857 B CN 114363857B
Authority
CN
China
Prior art keywords
vehicle
task
parking lot
time
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210274496.6A
Other languages
English (en)
Other versions
CN114363857A (zh
Inventor
陈赓
徐先杰
曾庆田
郭银景
孙红雨
邵睿
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN202210274496.6A priority Critical patent/CN114363857B/zh
Publication of CN114363857A publication Critical patent/CN114363857A/zh
Application granted granted Critical
Publication of CN114363857B publication Critical patent/CN114363857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种车联网中边缘计算任务卸载方法,属于移动通信技术领域,包括如下步骤:结合小区用户附近基站、行驶的车辆和带有奖励机制的停车场建立一个新型场景;通过当前的状态对建立的新型场景进行数学建模;结合车辆边缘网络效用和任务处理时延建立目标函数;采用DQN对目标函数进行最优化处理,得出最终的卸载方案。本发明解决了边缘计算中的任务卸载问题,将决策过程表述为一个马尔可夫过程,通过设立结合车辆边缘网络效用和时延的目标函数,使得问题公式化,使用DQN解决目标函数的最优化问题,得出最终的卸载策略。本发明扩大了小区的计算资源,并且在保证了用户上网体验的情况下,使得运营商的效用最大化。

Description

一种车联网中边缘计算任务卸载方法
技术领域
本发明属于移动通信技术领域,具体涉及一种车联网中边缘计算任务卸载方法。
背景技术
5G时代的到来,极大的促进了物联网时代的发展,并且为新的网络架构和智能服务打开了大门,伴随着越来越多的智能设备接入互联网,大量传感器设备终端的信息将会交由网络中心处理,这些信息不仅需要及时的处理,还要智能的进行数据分析,此时传统的基站和云计算的计算资源已经不能满足用户的需求,因为他们将会有较高的延时和有限的计算能力。车联网作为物联网的一部分,同样存在此问题。
边缘计算概念的提出成为解决此问题的关键技术,它可以将计算任务卸载到其他有计算资源的地方,从而可以减少网络中心的压力,提升用户的上网体验感。所以,车联网中亟需一种更好的计算任务卸载方法来提升计算能力,在均衡网络效用的同时降低时延。
发明内容
本发明提出的车联网中的一种基于DQN的边缘计算任务卸载方法,从网络效用和任务处理时延的角度出发,引入基于DQN的深度强化学习方法,来解决所提出的结合网络效用和任务处理时延的目标函数的优化问题,从而解决用户的计算任务卸载问题。
为了实现上述目的,本发明采用如下技术方案:
一种车联网中边缘计算任务卸载方法,包括如下步骤:
S1.结合小区用户附近基站、行驶的车辆和带有奖励机制的停车场建立一个新型场景;
S2.通过当前的状态对建立的新型场景进行数学建模;
S3.结合车辆边缘网络效用和任务处理时延建立目标函数;
S4.采用DQN对目标函数进行最优化处理,得出最终的卸载方案。
进一步地,所述方法中,车辆行驶道路和停车场位于小区附近,当小区内用户有计算任务产生时发送给基站进行处理,基站根据当前的目标函数最大化进行三种方案的决策,一是基站进行本地计算,给基站设置能量等级,计算能力随着剩余能量情况而改变,计算完成后返回给用户结果;二是将任务卸载到道路行驶中的车辆,车辆也会根据剩余能量的多少改变它的传输功率,此时会在基站的覆盖范围内选择车辆进行卸载,随着车辆的移动,若在覆盖范围内车辆未能完成此任务计算,则会在车辆行驶超出范围之前,根据应用程序迁移的方式,将剩余任务打包发送给后面的车辆进行处理,计算完成后通过基站返回给用户;三是将任务卸载到停车场内车辆,此时的车辆相当于一个小型的基站,计算完成后通过基站返回给用户,并且停车场内车辆的奖励机制吸引车主将车辆停到此处,从而扩大小区的计算资源。
进一步地,每种决策方案都设置依赖关系,若此种方案剩余能量不足或者此任务已经处理过,将会返回错误信息进行重新决策。
进一步地,对于任务的产生,使用networkx随机生成任务的依赖图,设置每次发送任务的数量和强度。
进一步地,对于停车场的奖励机制,当车辆被用作处理任务时,设置一个单价,根据计算任务的大小给予车主一定的回报。
进一步地,步骤S2的具体过程为:
S201.计算基站到道路车辆的任务传输速率:
(1)定义道路车辆v中第k个车辆和第i个任务之间的频谱效率为:
Figure 419308DEST_PATH_IMAGE001
(1)
其中P i 为传输功率,假设所含能量少于满能量的一半时,传输功率也降为原先的 一半,g i,k 为第i个任务到道路车辆中第k个车辆的无线传播的信道增益,
Figure 8552DEST_PATH_IMAGE002
为车辆之间的相 互干扰,σ v 为道路车辆的噪声功率;
(2)定义η i,k ∈[0,1]表示第k个车辆分配给第i个任务的频谱百分比,得出道路车辆v中第k个车辆与第i个任务之间的传输速率为:
Figure 506398DEST_PATH_IMAGE003
(2)
其中B为任务所属的用户到道路车辆的带宽;
S202.计算基站到停车场车辆的任务传输速率:
(1)定义停车场车辆p中第n个车辆和第i个任务之间的频谱效率为:
Figure 370449DEST_PATH_IMAGE004
(3)
其中P i 为传输功率,同上,传输功率会随着剩余能量而改变,
Figure 653663DEST_PATH_IMAGE005
为第i个任务到停 车场车辆p中第n个车辆的无线传播的信道增益,
Figure 944967DEST_PATH_IMAGE002
为车辆之间的相互干扰,
Figure 195689DEST_PATH_IMAGE006
为停车场车 辆的噪声功率;
(2)定义
Figure 863431DEST_PATH_IMAGE007
∈[0,1]表示第n个车辆分配给第i个任务的频谱百分比,可以得出停 车场车辆p中第n个车辆与第i个任务之间的传输速率为:
Figure 1151DEST_PATH_IMAGE008
(4)
其中,B 0为任务所属的用户到停车场车辆的带宽;
S203. 计算本地基站完成任务时间:
定义第i个任务为Si={H i , Z i },其中H i 表示任务数据的大小,Z i 表示完成任务所需 要的计算资源数量,则本地基站完成任务的时间
Figure 918816DEST_PATH_IMAGE009
为:
Figure 141987DEST_PATH_IMAGE010
(5)
其中C i,local 为处理第i个任务时本地基站的计算能力,计算能力会随着所剩余能量的等级进行变化,假设当所剩余能量不足一半的时候,它的计算能力降为原先的1/5,此处由于本地计算不需要传输任务的通信时间,所以只需要统计计算时间;
S204. 计算道路车辆完成任务时间:
道路车辆需要经过基站传输任务,所以它的总时间包括任务的传输时间和任务的计算时间;其中:
通信时间为:
Figure 347840DEST_PATH_IMAGE011
(6)
计算时间为:
Figure 340067DEST_PATH_IMAGE012
(7)
其中,C i,k 为处理第i个任务时道路车辆v中第k个车辆的计算能力;
由通信时间加计算时间得出经过道路上车辆完成此次计算任务所需要的总的时间为:
Figure 488020DEST_PATH_IMAGE013
(8)
S205. 计算停车场车辆完成任务时间:
停车场车辆计算任务同样需要基站先传输任务,然后再由车辆计算,它的时间也包括通信时间和计算时间两部分,其中:
通信时间为:
Figure 198487DEST_PATH_IMAGE014
(9)
计算时间为:
Figure 942452DEST_PATH_IMAGE015
(10)
其中,C i,n 为处理第i个任务时停车场车辆p中第n个车辆的计算能力;
则停车场中的车辆完成此次计算任务所需要的总的时间如下:
Figure 54765DEST_PATH_IMAGE016
(11)。
进一步地,步骤S3的具体过程为:
S301.车辆边缘网络需要向用户与道路车辆和停车场内车辆传输计算任务进行收费,假设单价α i ,车辆边缘网络中道路车辆和停车场车辆通信都需要从无线网络中租赁,频谱单价分别为β i,k β i,n ,因此总的通信效用为:
Figure 108040DEST_PATH_IMAGE017
(12)
其中,
Figure 305804DEST_PATH_IMAGE018
Figure 119039DEST_PATH_IMAGE019
分别为停车场车辆和道路车辆的卸载决策;
S302.基站向用户收取计算任务S i 的单价为b i ,同时车辆边缘网络中道路车辆和停车场车辆向无线网络租用的资源的单价分别为ε i,k ε i,n ;停车场车辆给予车主一定回报,回报的单价为r i,n ;则计算能效的公式为:
Figure 85858DEST_PATH_IMAGE020
(13)
S303.第i个任务的网络效用公式为:
Figure 575614DEST_PATH_IMAGE021
(14)
S304.目标函数采用车辆边缘网络产生的网络效用与时延之差的形式,如下所示:
Figure 995094DEST_PATH_IMAGE022
(15)
其中
Figure 346441DEST_PATH_IMAGE023
为第i个任务的传输和计算产生的网络效用,
Figure 167766DEST_PATH_IMAGE024
为计算此任务所需的时 延,调整网络效用和时延的权重增加侧重点,此处设置权重都为1;
S305.目标函数用于均衡网络效用和用户上网的体验,目标函数的越大,效用减去 时延的差值越大,则网络效用越大而时延越小,即为目标函数的最佳状态,所以取
Figure 831353DEST_PATH_IMAGE025
的最 大值作为目标函数的最终取值,具体为:
Figure 738129DEST_PATH_IMAGE026
Figure 830850DEST_PATH_IMAGE027
Figure 287108DEST_PATH_IMAGE028
Figure 869399DEST_PATH_IMAGE029
Figure 263472DEST_PATH_IMAGE030
(16)
其中,R v i,k 表示道路车辆v中第k个车辆与第i个任务之间的传输速率,R v k 表示道路车辆与用户通信总的传输速率,R p i,n 表示停车场车辆p中第n个车辆与第i个任务之间的传输速率,R p n 表示停车场车辆和用户通信的总的传输速率;I为一次发送的任务数,本发明的目标是完成一次发送任务的目标函数的最大化。
C1和C2保证了每个任务只能选择三种方式中的一种进行计算,其中d i ∈{0,1}表示是否将任务进行卸载,当d i =0时表示不进行卸载,基站进行本地计算,当d i =1时,表示进行卸载;p i ∈{0,1}、v i ∈{0,1},当p i =1时表示将任务卸载到停车场内的车辆,此外p i =0;v i =1时表示将任务卸载到道路上的车辆,此外v i =0;
C3和C4保证了道路车辆和停车场车辆用于卸载的频谱不能超过它的总频谱。
进一步地,步骤S4的具体过程为:
基于DQN的计算卸载方法中,状态States、动作Actions和奖励值Rewards如下所示:
States有三个元素,包括t时刻已完成的任务数CTaks,目前所剩余的能量值Enery和任务的强度大小Intensity
Figure 956621DEST_PATH_IMAGE031
(21)
Actions包括卸载决策d i p i v i ,每个动作又有两个不同的能量等级,每个任务的动作空间长度为6;
Figure 939490DEST_PATH_IMAGE032
(22)
Rewards为系统的目标函数,表示整个系统的网络效用减去所需时间的值,即在行为动作中获得的奖励,当任务不符合依赖关系或者剩余能量不足时,给予负的奖励,如下所示:
Figure 692682DEST_PATH_IMAGE033
(23)
DQN网络中选取目标函数的值作为奖励,得出动作值之后直接选取奖励最大的动作,作为本次任务卸载的最终决策。
进一步地,采用深度强化学习中的DQN对目标函数进行最优化,主要包括以下步骤:
(1)设置训练次数、任务数、数据大小和强度等初始值;
(2)将状态s输入到评估网络,得到动作、奖励和下一步的状态s_并存储;
(3)从存储的值中随机抽取一部分每隔若干步进行训练更新;
(4)每隔若干步将评估模型的参数添加到目标模型。
本发明所带来的有益技术效果:
在用户和基站的基础上,结合道路中的行驶车辆、停车场建立新型场景,并通过给停车场设立奖励机制,充分利用停车场车辆资源,扩大小区用户的计算资源,同时在保证了用户上网体验的情况下,使得运营商的效用最大化;采用应用程序迁移的方式,改善行驶车辆的移动性所带来的问题;结合网络效用和处理任务的时延,建立了目标函数,同时采用DQN对目标函数进行优化,使得最终选择的卸载策略网络效用最大、时延最低。
附图说明
图1为车联网中边缘计算任务卸载方法的流程框图;
图2为本发明建立新型场景的示意图;
图3为本发明采用DQN对目标函数进行优化的流程框图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1所示为本发明的方法框图,包括如下四个过程:结合行驶的车辆和带有奖励机制的停车场建立了一个新型的场景;通过当前的状态对所述的场景进行数学建模;提出一个结合车辆边缘网络效用和时延的目标函数;采用DQN解决目标函数的最优化问题,从而得出最终的卸载方案。具体表现为:结合小区用户附近的基站、道路上行驶的车辆和停车场内的车辆的计算资源建立一个新型的场景,将进程表述为一个马尔可夫过程,对建立的场景进行数学建模,并且结合本场景下的网络效用和任务的处理时延作为目标函数,将计算卸载决策问题转化为求解函数最优解的问题,最后利用深度强化学习中的DQN通过训练一定次数,解决目标函数的最优问题,得出最优解,即一次任务的最终卸载决策等。
下面对每一过程作进一步的具体描述。
一、结合行驶的车辆和带有奖励机制的停车场建立了一个新型的场景。
如图2所示,本发明考虑了一个靠近道路的小区,小区附近设有奖励机制的停车场,当小区内用户UE i 有计算任务产生时会发送给基站进行处理,基站根据当前的目标函数最大化进行三种方案的决策。方案一:基站进行本地计算,基站设置能量等级,计算能力随着剩余能量情况而改变,计算完成后返回给用户结果;方案二:将任务卸载到道路行驶中的车辆V k ,车辆也会根据剩余能量的多少改变它的传输功率,此时会在基站的覆盖范围内选择车辆V k 进行卸载,随着车辆的移动,若在覆盖范围内车辆未能完成此计算任务,则会在车辆行驶超出范围之前,根据应用程序迁移的方式,将剩余任务打包发送给后面的车辆进行处理,计算完成后通过基站返回给用户;方案三:将任务卸载到停车场内车辆P n ,此时的车辆相当于一个小型的基站,计算完成后通过基站返回给用户,并且停车场内车辆的奖励机制吸引车主将车辆停到此处,从而扩大小区的计算资源。此外每种方案都会设置依赖关系,若此种方案剩余能量不足或者此任务已经处理过,将会返回错误信息进行重新决策。
对于任务的产生,本发明使用networkx随机生成任务的依赖图,可以设置每次发送任务的数量和强度,从而可以在仿真中观察方法的优劣。
对于车辆的移动性所带来的问题,可以结合应用程序迁移的方式来解决,假设计算任务由特定的应用程序产生,如图2所示,基站有一个覆盖范围,假设第一个车辆正在执行计算任务,随着车辆的移动,当第一个车辆将要驶出基站的覆盖范围的时候,如果计算任务并没有完成,可以将剩余任务进行存储打包,并将其发送给后面的车辆,后面的车辆在收到数据之后安装此数据包,然后具有继续处理任务的能力,如此传递,对车辆移动性所带来的问题应该有所改善。
对于特定停车场的奖励机制,由于在以后的车联网时代,每辆车都会有通信和计算单元,而大多数的车辆停在停车场的时间是比在路上的时间要多的,所以平时停在停车场的车辆的计算资源也应该充分利用,当车辆被用作处理任务的时候,可以设置一个单价,根据计算任务的大小给予车主一定的回报,从而可以吸引一部分车主来把车停到此处,进而扩大附近的计算资源。对于行驶中的车辆本发明没有考虑回报的问题,因为考虑在以后的车联网时代,车辆行驶在路上本身就需要不断地与网络进行交流。
二、通过当前的状态对所述的场景进行数学建模
此部分给出了三种方案的时延和车辆边缘网络效用,其中时延包括任务通信时间和计算时间,用户到基站的通信时间省略,只计算从基站到各处的时间。
首先定义d i ∈{0,1},表示是否将任务进行卸载,当d i =0时表示不进行卸载,基站进行本地计算,当d i =1时,表示进行卸载;然后定义p i ∈{0,1}、v i ∈{0,1},当p i =1时表示将任务卸载到停车场内的车辆,此外p i =0;v i =1时表示将任务卸载到道路上的车辆,此外v i =0。
通信时间包括基站到道路车辆、基站到停车场车辆的通信时间,由于距离较近,此处省略用户到基站的通信时间,同时也省略任务的返回时间。
1.基站到道路车辆的任务传输速率相关计算过程:
(1)定义道路车辆v中第k个车辆和第i个任务之间的频谱效率为:
Figure 574050DEST_PATH_IMAGE034
(1)
其中P i 为传输功率,本发明假设所含能量少于满能量的一半的时候,传输功率也 降为原先的一半,g i,k 为第i个任务到道路车辆中第k个车辆的无线传播的信道增益,
Figure 320158DEST_PATH_IMAGE002
为车 辆之间的相互干扰,σ v 为道路车辆的噪声功率。
(2)定义η i,k ∈[0,1]表示第k个车辆分配给第i个任务的频谱百分比,可以得出道路车辆v中第k个车辆与第i个任务之间的传输速率为:
Figure 970582DEST_PATH_IMAGE035
(2)
其中B为任务所属的用户到道路车辆的带宽。
2.基站到停车场车辆的任务传输速率相关计算过程:
(1)定义停车场车辆p中第n个车辆和第i个任务之间的频谱效率为:
Figure 629097DEST_PATH_IMAGE036
(3)
其中P i 为传输功率,同上,传输功率会随着剩余能量而改变,
Figure 263341DEST_PATH_IMAGE005
为第i个任务到停 车场车辆p中第n个车辆的无线传播的信道增益,
Figure 550490DEST_PATH_IMAGE002
为车辆之间的相互干扰,
Figure 321000DEST_PATH_IMAGE006
为停车场车 辆的噪声功率。
(2)定义
Figure 150416DEST_PATH_IMAGE007
∈[0,1]表示第n个车辆分配给第i个任务的频谱百分比,可以得出停 车场车辆p中第n个车辆与第i个任务的传输速率为:
Figure 458906DEST_PATH_IMAGE008
(4)
其中,B 0为任务所属的用户到停车场车辆的带宽。
3.本地基站完成任务时间计算:
定义第i个任务为S i ={H i , Z i },其中H i 表示任务数据的大小,Z i 表示完成任务所需 要的计算资源数量,则本地基站完成任务的时间
Figure 94287DEST_PATH_IMAGE009
为:
Figure 656986DEST_PATH_IMAGE010
(5)
其中C i,local 为处理第i个任务时本地基站的计算能力,计算能力也会跟着所剩余能量的等级变化,本发明假设当所剩余能量不足一半的时候,它的计算能力降为原先的1/5,此处由于本地计算不需要传输任务的通信时间,所以只需要统计计算时间就可以。
4.道路车辆完成任务时间计算:
道路车辆需要经过基站传输计算任务,所以它的总时间包括任务的传输时间和任务的计算时间。其中:
通信时间为:
Figure 922882DEST_PATH_IMAGE011
(6)
计算时间为:
Figure 249827DEST_PATH_IMAGE012
(7)
其中,C i,k 为处理第i个任务时道路车辆v中第k个车辆的计算能力;
由通信时间加计算时间得出经过道路上车辆完成此次计算任务所需要的总的时间为:
Figure 892161DEST_PATH_IMAGE013
(8)
5.停车场车辆完成任务时间计算:
停车场车辆计算任务同样需要基站先传输任务,然后再由车辆计算,它的时间也包括两部分,即通信时间和计算时间,其中:
通信时间为:
Figure 371684DEST_PATH_IMAGE014
(9)
计算时间为:
Figure 74061DEST_PATH_IMAGE015
(10)
其中,C i,n 为处理第i个任务时停车场车辆p中第n个车辆的计算能力;
则停车场中的车辆完成此次计算任务所需要的总的时间为:
Figure 888302DEST_PATH_IMAGE016
(11)
三、提出一个结合网络效用和时延的目标函数
此部分给出三种方案的网络效用,其中包括通信效用和计算能效,计算能效中还需要减去回报给车主的部分。
由上面的介绍已经知道了本发明的网络架构和基本模型,下面通过计算各个卸载方案的网络效用,然后给出由车辆边缘网络效用和时延相结合的目标函数,通过比较三种方案目标函数的大小,选取最优的一种卸载决策,即为本次计算任务卸载的最终决策。
车辆边缘网络需要向用户与道路车辆和停车场内车辆传输计算任务进行收费,假设单价α i ,然后车辆边缘网络中道路车辆和停车场车辆的通信都需要从无线网络中租赁频谱,假设租赁频谱的单价分别为β i,k β i,n ,因此总的通信效用是
Figure 68748DEST_PATH_IMAGE037
(12)
其中,
Figure 402777DEST_PATH_IMAGE038
Figure 10476DEST_PATH_IMAGE039
分别为上文中提到的停车场车辆和道路车辆的卸载决策;
下面分析了各个卸载方案的网络效用基站向用户收取计算任务S i 的单价为b i ,同时车辆边缘网络中道路车辆和停车场车辆向无线网络租用的资源的单价分别为ε i,k ε i,n 。并且为了吸引车主将车辆停到此处,停车场车辆还需要给与车主一定的回报,定义它的单价为r i,n 。于是得到了下面的计算能效的公式:
Figure 506486DEST_PATH_IMAGE020
(13)
所以将通信效用加上计算效用就得出第i个任务的网络效用公式:
Figure 21781DEST_PATH_IMAGE021
(14)
本发明的目标函数采用车辆边缘网络产生的网络效用与时延之差的形式,如下所示:
Figure 679159DEST_PATH_IMAGE022
(15)
其中
Figure 707027DEST_PATH_IMAGE040
为对第i个任务的传输和计算产生的网络效用,
Figure 246592DEST_PATH_IMAGE041
为计算此任务所需的时 延,可以调整网络效用和时延的权重增加侧重点,此处设置权重都为1,本发明设置此目标 函数的目的是为了均衡网络效用和用户上网的体验,目标函数越大,说明网络效用减去时 延的差值越大,即网络效用越大而时延越小,这正是本发明所追求的最佳状态,故取
Figure 768841DEST_PATH_IMAGE025
的 最大值作为目标函数的最终取值,计算过程如下。
Figure 77462DEST_PATH_IMAGE026
Figure 276231DEST_PATH_IMAGE042
Figure 37514DEST_PATH_IMAGE028
Figure 363453DEST_PATH_IMAGE043
Figure 526581DEST_PATH_IMAGE030
(16)
其中,R v i,k 表示道路车辆v中第k个车辆与第i个任务之间的传输速率,R v k 表示道路车辆与用户通信总的传输速率,R p i,n 表示停车场车辆p中第n个车辆与第i个任务之间的传输速率,R p n 表示停车场车辆和用户通信的总的传输速率;I为一次发送的任务数,本发明的目标是完成一次发送任务的目标函数的最大化,C1和C2保证了每个任务只能选择三种方式中的一种进行计算,C3和C4保证了道路车辆和停车场车辆用于卸载的频谱不能超过它的总频谱。
四、采用DQN解决目标函数的最优化问题,从而得出最终的卸载方案。
把此方案的决策过程近似表述为一个马尔可夫过程,即下一时刻的行为动作只与当前时刻的状态有关,如下所介绍,可以利用DQN来解决马尔可夫决策过程。
强化学习就是通过agent对环境造成影响,环境根据动作做出相应的变化,反馈给agent,然后agent根据当前的状态再选择下一个动作,其中选择的基本原则是获得奖励最大,主要任务就是通过在环境中的不断探索,根据探索获得的反馈信息调整策略,最终生成一个较好的策略,agent根据这个策略便能够知道在什么状态下应该执行什么动作。其中Q-learning首先会初始化一个Q表,用来存储状态和动作值,每一个回合都会根据下面的公式进行更新一次Q表:
Figure 161831DEST_PATH_IMAGE044
(17)
其中的α为学习效率,r代表奖励值,γ为奖励衰减参数,Q就是在某一步的状态s下,采取动作a所能获取的收益的期望,然后agent在某一状态下,根据Q表选择奖励最大的动作;s'为下一步状态,a'为下一步动作。
DQN是深度强化学习的一种,它和Q-learning都是基于值迭代的方法,当状态和动作空间是离散并且维数不高的时候可以使用Q表来存储每个状态动作对的值,但是当状态和动作空间是高维且连续的时候,在众多状态动作对中再使用查表的方式就会有些困难,而深度学习最擅长的就是提取数据的特征,所以DQN不需要存储Q表,只需要输入状态和动作值然后通过神经网络直接生成Q值,或者是只输入状态值然后输出所有的动作值,然后按照Q-learning的原则直接选择拥有最大值的动作,这正是本发明所使用方法。
DQN的两个关键技术:第一个是Experience Reply,将数据存储到一个数据库中,然后在此数据库中采用随机采样的方法抽取数据进行训练,通过经验回放可以打破数据之间的关联,使得神经网络的表现更稳定。第二个是Fixed Q-target,采用一个更新较慢的网络专门提供Q值,用于动作值函数逼近的网络每一步都更新,而用于计算目标网络的每隔固定的步数更新一次,这使得训练更加的稳定。
其中目标网络中的目标Q值为:
Figure 675988DEST_PATH_IMAGE045
(18)
其中,
Figure 540039DEST_PATH_IMAGE046
为神经网络权重参数;
损失函数通过更新权重尽量减小损失,定义为目标值和预测值之间的均方差:
Figure 557674DEST_PATH_IMAGE047
(19)
E表示取均值;
在学习过程中,如图3所示,DQN中使用了两个不同的网络模型(估计模型和目标模型),当代理对环境采取动作之后,可以根据公式计算出Q值,反馈给损失函数后,通过反向传播使用梯度下降的方法来更新估计网络的参数,此时目标网络会被暂时冻结,每隔N步将估计模型的参数复制给目标网络,这样就完成了一次学习过程。
DQN的更新公式同Q-learning一样:
Figure 366754DEST_PATH_IMAGE048
(20)
本发明使用的基于DQN的计算卸载方法流程如图3所示,其中的状态States、动作Actions和奖励值Rewards如下所示:
States在本发明中有三个元素,包括t时刻已完成的任务数CTaks,目前所剩余的能量值Enery和任务的强度大小Intensity
Figure 305892DEST_PATH_IMAGE049
(21)
Actions包括卸载决策d i p i v i ,即是否进行卸载和将任务卸载到哪里,每个动作又有两个不同的能量等级,所以本发明中每个任务的动作空间长度为6。
Figure 973633DEST_PATH_IMAGE050
(22)
Rewards在本发明中即为系统的目标函数,表示整个系统的网络效用减去所需时间的值,即在行为动作中获得的奖励,当任务不符合依赖关系或者剩余能量不足时,给予负的奖励,如下所示:
Figure 95042DEST_PATH_IMAGE051
(23)
本发明DQN网络中选取目标函数的值作为奖励,得出动作值之后直接选取奖励最大的动作,即为本次任务卸载的最终决策。
采用DQN的训练过程,进行学习,在运行足够次数之后就会输出目标函数的最大值所对应的动作,即任务卸载的最终决策。一种车联网中基于DQN进行模型训练进行边缘计算任务卸载的过程伪代码如下:
1、输入训练次数,任务数,任务大小,任务强度大小等初始值;
2、for 每个回合;
3、初始化环境、观测值;
4、if flag是true;
5、创建任务;
6、通过观测值在DQN中选择动作;
判断任务队列;
if 随机值<贪婪值;
判断任务队列,使得之前任务的动作值为无穷小;
选择最大动作值的动作;
else
随机选择动作;
返回动作;
7、基于以上动作得到下一步的观测值、奖励、done;
8、基于动作得到策略分类中的最大奖励值;
9、if 不符合依赖关系;
10、done=false;
11、奖励为负的最大奖励;
12、返回状态、奖励、done;
13、else
14、基于动作得到最大奖励、时间、消耗能量;
15、if 任务完成;
16、奖励为最大奖励减去此时的任务处理时间;
17、else
18、done = false;
19、奖励为最大奖励减去此时的任务处理时间;
20、返回状态、奖励、done;
21、存储过渡参数:观测值、动作、奖励和下一步的观测值;
22、if step>200且每隔十步;
23、进行学习;
在记忆库里随机选择状态;
设置
Figure 822827DEST_PATH_IMAGE052
Figure 311577DEST_PATH_IMAGE053
进行参数为
Figure 517430DEST_PATH_IMAGE054
的梯度下降;
24、观测值为下一步的观测值;
25、if done;
26、跳出循环。
其中,
Figure 758924DEST_PATH_IMAGE055
表示第j步时的目标值,
Figure 657610DEST_PATH_IMAGE056
表示第j步时的奖励;
Figure 305760DEST_PATH_IMAGE057
表示奖励衰减系数;
Figure 564572DEST_PATH_IMAGE058
表示下一步的动作;Q表示所能获取奖励的期望值,
Figure 676885DEST_PATH_IMAGE059
表示j+1步时的状态,θ为网络权重 参数,
Figure 480893DEST_PATH_IMAGE060
表示第j步的动作。
该方法中采用了深度强化学习中的DQN解决目标函数的最优化问题,主要分为以下几个步骤:
(1)设置训练次数、任务数、数据大小和强度等初始值;
(2)将状态s输入到评估网络,得到动作、奖励和下一步的状态s_并存储;
(3)从存储的值中随机抽取一部分每隔若干步进行训练更新;
(4)每隔若干步将评估模型的参数添加到目标模型。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (1)

1.一种车联网中边缘计算任务卸载方法,其特征在于,包括如下步骤:
S1.结合小区用户附近基站、行驶的车辆和带有奖励机制的停车场建立一个新型场景;
车辆行驶道路和停车场位于小区附近,当小区内用户有计算任务产生时发送给基站进行处理,基站根据当前的目标函数最大化进行三种方案的决策,一是基站进行本地计算,给基站设置能量等级,计算能力随着剩余能量情况而改变,计算完成后返回给用户结果;二是将任务卸载到道路行驶中的车辆,车辆也会根据剩余能量的多少改变它的传输功率,此时会在基站的覆盖范围内选择车辆进行卸载,随着车辆的移动,若在覆盖范围内车辆未能完成此任务计算,则会在车辆行驶超出范围之前,根据应用程序迁移的方式,将剩余任务打包发送给后面的车辆进行处理,计算完成后通过基站返回给用户;三是将任务卸载到停车场内车辆,此时的车辆相当于一个小型的基站,计算完成后通过基站返回给用户,并且停车场内车辆的奖励机制吸引车主将车辆停到此处,从而扩大小区的计算资源;
每种决策方案都设置依赖关系,若此种方案剩余能量不足或者此任务已经处理过,将会返回错误信息进行重新决策;
对于任务的产生,使用networkx随机生成任务的依赖图,设置每次发送任务的数量和强度;
对于停车场的奖励机制,当车辆被用作处理任务时,设置一个单价,根据计算任务的大小给予车主回报;
S2.通过当前的状态对建立的新型场景进行数学建模;具体过程为:
S201.计算基站到道路车辆的任务传输速率:
(1)定义道路车辆v中第k个车辆和第i个任务之间的频谱效率为:
Figure DEST_PATH_IMAGE001
(1)
其中P i 为传输功率,假设所含能量少于满能量的一半时,传输功率也降为原先的一半,g i,k 为第i个任务到道路车辆中第k个车辆的无线传播的信道增益,
Figure DEST_PATH_IMAGE002
为车辆之间的相互干扰,σ v 为道路车辆的噪声功率;
(2)定义η i,k ∈[0,1]表示道路车辆中第k个车辆分配给第i个任务的频谱百分比,得出道路车辆v中第k个车辆与第i个任务之间的传输速率为:
Figure DEST_PATH_IMAGE003
(2)
其中B为任务所属的用户到道路车辆的带宽;
S202.计算基站到停车场车辆的任务传输速率:
(1)定义停车场车辆p中第n个车辆和第i个任务之间的频谱效率为:
Figure DEST_PATH_IMAGE004
(3)
其中P i 为传输功率,同上,传输功率会随着剩余能量而改变,
Figure DEST_PATH_IMAGE005
为第i个任务到停车场车辆p中第n个车辆的无线传播的信道增益,
Figure 715557DEST_PATH_IMAGE002
为车辆之间的相互干扰,
Figure DEST_PATH_IMAGE006
为停车场车辆的噪声功率;
(2)定义
Figure DEST_PATH_IMAGE007
∈[0,1]表示停车场车辆中第n个车辆分配给第i个任务的频谱百分比,得出停车场车辆p中第n个车辆与第i个任务之间的传输速率为:
Figure DEST_PATH_IMAGE008
(4)
其中,B 0为用户到停车场车辆的带宽;
S203. 计算本地基站完成任务时间:
定义第i个任务为Si={H i , Z i },其中H i 表示任务数据的大小,Z i 表示完成任务所需要的计算资源数量,则本地基站完成任务的时间
Figure DEST_PATH_IMAGE009
为:
Figure DEST_PATH_IMAGE010
(5)
其中C i,local 为处理第i个任务时本地基站的计算能力,计算能力会随着所剩余能量的等级进行变化,假设当所剩余能量不足一半的时候,它的计算能力降为原先的1/5,此处由于本地计算不需要传输任务的通信时间,所以只需要统计计算时间;
S204. 计算道路车辆完成任务时间:
道路车辆需要经过基站传输计算任务,所以它的总时间包括任务的传输时间和任务的计算时间;其中,
通信时间为:
Figure DEST_PATH_IMAGE011
(6)
计算时间为:
Figure DEST_PATH_IMAGE012
(7)
其中,C i,k 为处理第i个任务时道路车辆v中第k个车辆的计算能力;
由通信时间加计算时间得出经过道路上车辆完成此次计算任务所需要的总的时间为:
Figure DEST_PATH_IMAGE013
(8)
S205. 计算停车场车辆完成任务时间:
停车场车辆计算任务同样需要基站先传输任务,然后再由车辆计算,它的时间也包括通信时间和计算时间两部分;其中,
通信时间为:
Figure DEST_PATH_IMAGE014
(9)
计算时间为:
Figure DEST_PATH_IMAGE015
(10)
其中,C i,n 为处理第i个任务时停车场车辆p中第n个车辆的计算能力;
则停车场中的车辆完成此次任务所需要的总的时间如下:
Figure DEST_PATH_IMAGE016
(11);
S3.结合车辆边缘网络效用和任务处理时延建立目标函数;具体过程为:
S301.车辆边缘网络需要向用户与道路车辆和停车场内车辆传输任务进行收费,假设单价为α i ,车辆边缘网络中道路车辆和停车场车辆通信都需要从无线网络中租赁,频谱单价分别为β i,k β i,n ,因此总的通信效用为:
Figure DEST_PATH_IMAGE017
(12)
其中,
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
分别为停车场车辆和道路车辆的卸载决策;
S302.基站向用户收取计算任务S i 的单价为b i ,同时车辆边缘网络中道路车辆和停车场车辆向无线网络租用的资源的单价分别为ε i,k ε i,n ;停车场车辆给予车主回报,回报的单价为r i,n ;则计算能效的公式为:
Figure DEST_PATH_IMAGE020
(13)
S303.第i个任务的网络效用公式为:
Figure DEST_PATH_IMAGE021
(14)
S304.目标函数采用车辆边缘网络产生的网络效用与时延之差的形式,如下所示:
Figure DEST_PATH_IMAGE022
(15)
其中F u (i)为第i个任务的传输和计算产生的网络效用,T i 为计算此任务所需的时延,调整网络效用和时延的权重增加侧重点,此处设置权重都为1;
S305.目标函数用于均衡网络效用和用户上网的体验,目标函数的越大,效用减去时延的差值越大,则网络效用越大而时延越小,即为目标函数的最佳状态,所以取F(i)的最大值作为目标函数的最终取值,具体为:
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
(16)
其中,R v i,k 表示道路车辆v中第k个车辆与第i个任务之间的传输速率,R v k 表示道路车辆与用户通信总的传输速率,R p i,n 表示停车场车辆p中第n个车辆与第i个任务之间的传输速率,R p n 表示停车场车辆和用户通信的总的传输速率;I为一次发送的任务数,目标是完成一次发送任务的目标函数的最大化;
C1和C2保证了每个任务只能选择三种方式中的一种进行计算,其中d i ∈{0,1}表示是否将任务进行卸载,当d i =0时表示不进行卸载,基站进行本地计算,当d i =1时,表示进行卸载;p i ∈{0,1}、v i ∈{0,1},当p i =1时表示将任务卸载到停车场内的车辆,此外p i =0;v i =1时表示将任务卸载到道路上的车辆,此外v i =0;
C3和C4保证了道路车辆和停车场车辆用于卸载的频谱不能超过它的总频谱;
S4.采用DQN对目标函数进行最优化处理,得出最终的卸载方案;具体过程为:
基于DQN的计算卸载方法中,状态States、动作Actions和奖励值Rewards如下所示:
States有三个元素,包括t时刻已完成的任务数CTaks,目前所剩余的能量值Enery和任务的强度大小Intensity
Figure DEST_PATH_IMAGE028
(21)
Actions包括卸载决策d i p i v i ,每个动作又有两个不同的能量等级,每个任务的动作空间长度为6;
Figure DEST_PATH_IMAGE029
(22)
Rewards为系统的目标函数,表示整个系统的网络效用减去所需时间的值,即在行为动作中获得的奖励,当任务不符合依赖关系或者剩余能量不足时,给予负的奖励,如下所示:
Figure DEST_PATH_IMAGE030
(23)
DQN网络中选取目标函数的值作为奖励,得出动作值之后直接选取奖励最大的动作,作为本次任务卸载的最终决策;
采用深度强化学习中的DQN对目标函数进行最优化,包括以下步骤:
(1)设置训练次数、任务数、数据大小和强度初始值;
(2)将状态s输入到评估网络,得到动作、奖励和下一步的状态s_并存储;
(3)从存储的值中随机抽取一部分每隔若干步进行训练更新;
(4)每隔若干步将评估模型的参数添加到目标模型。
CN202210274496.6A 2022-03-21 2022-03-21 一种车联网中边缘计算任务卸载方法 Active CN114363857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210274496.6A CN114363857B (zh) 2022-03-21 2022-03-21 一种车联网中边缘计算任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210274496.6A CN114363857B (zh) 2022-03-21 2022-03-21 一种车联网中边缘计算任务卸载方法

Publications (2)

Publication Number Publication Date
CN114363857A CN114363857A (zh) 2022-04-15
CN114363857B true CN114363857B (zh) 2022-06-24

Family

ID=81094505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210274496.6A Active CN114363857B (zh) 2022-03-21 2022-03-21 一种车联网中边缘计算任务卸载方法

Country Status (1)

Country Link
CN (1) CN114363857B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115175136A (zh) * 2022-05-25 2022-10-11 南京航空航天大学 一种基于半马尔可夫过程的低时延车载边缘计算方法
CN115100898B (zh) * 2022-05-31 2023-09-12 东南大学 一种城市智能停车管理系统的协同计算任务卸载方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067842A (zh) * 2018-07-06 2018-12-21 电子科技大学 面向车联网的计算任务卸载方法
CN111464976A (zh) * 2020-04-21 2020-07-28 电子科技大学 一种基于车队的车辆任务卸载决策和总体资源分配方法
CN112188442A (zh) * 2020-11-16 2021-01-05 西南交通大学 基于移动边缘计算的车联网数据驱动任务卸载系统和方法
CN112512013A (zh) * 2020-11-27 2021-03-16 山东师范大学 基于学习剪枝的车联网移动边缘计算任务卸载方法及系统
CN113613206A (zh) * 2020-06-12 2021-11-05 南京理工大学 一种基于强化学习的无线异构车联网边缘卸载方案

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344255B (zh) * 2021-05-21 2024-03-19 北京工业大学 基于移动边缘计算和区块链的车载网络应用数据传输和计费优化方法
CN113918240A (zh) * 2021-10-15 2022-01-11 全球能源互联网研究院有限公司 任务卸载方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067842A (zh) * 2018-07-06 2018-12-21 电子科技大学 面向车联网的计算任务卸载方法
CN111464976A (zh) * 2020-04-21 2020-07-28 电子科技大学 一种基于车队的车辆任务卸载决策和总体资源分配方法
CN113613206A (zh) * 2020-06-12 2021-11-05 南京理工大学 一种基于强化学习的无线异构车联网边缘卸载方案
CN112188442A (zh) * 2020-11-16 2021-01-05 西南交通大学 基于移动边缘计算的车联网数据驱动任务卸载系统和方法
CN112512013A (zh) * 2020-11-27 2021-03-16 山东师范大学 基于学习剪枝的车联网移动边缘计算任务卸载方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Revenue and Energy Efficiency-Driven Delay Constrained Computing Task Offloading and Resource Allocation in a Vehicular Edge Computing Network: A Deep Reinforcement Learning Approach;Xinyu Huang等;《IEEE》;20210929;第1-16页 *
面向停车合作基于深度强化学习的车辆任务卸载;王振川等;《小型微型计算机系统》;20220215;全文 *

Also Published As

Publication number Publication date
CN114363857A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN114363857B (zh) 一种车联网中边缘计算任务卸载方法
CN109862610B (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
Liu et al. Deep reinforcement learning for offloading and resource allocation in vehicle edge computing and networks
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
CN113543074B (zh) 一种基于车路云协同的联合计算迁移和资源分配方法
CN114143346B (zh) 一种车联网任务卸载和服务缓存的联合优化方法及系统
CN114422349B (zh) 基于云边端协同的深度学习模型训练和推理架构部署方法
CN113590232A (zh) 一种基于数字孪生的中继边缘网络任务卸载方法
CN113132943A (zh) 一种车联网中车边协同的任务卸载调度及资源分配方法
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN115022322B (zh) 一种车联网中基于群智进化的边云协作任务卸载方法
CN116456493A (zh) 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
CN112115505A (zh) 基于移动边缘计算和区块链技术的新能源汽车充电站计费数据传输方法
Zhou et al. Dynamic channel allocation for multi-UAVs: A deep reinforcement learning approach
CN114385272B (zh) 面向海洋任务的在线自适应计算卸载方法及系统
CN116321298A (zh) 车联网中一种基于深度强化学习的多目标联合优化任务卸载策略
Ouyang Task offloading algorithm of vehicle edge computing environment based on Dueling-DQN
CN113778550B (zh) 一种基于移动边缘计算的任务卸载系统和方法
CN113709249B (zh) 辅助驾驶业务安全均衡卸载方法及系统
Gao et al. Fast adaptive task offloading and resource allocation via multiagent reinforcement learning in heterogeneous vehicular fog computing
CN113961204A (zh) 一种基于多目标强化学习的车联网计算卸载方法及系统
CN117221951A (zh) 车载边缘环境下基于深度强化学习的任务卸载方法
CN116916272A (zh) 基于自动驾驶汽车网络的资源分配和任务卸载方法及系统
Shaodong et al. Multi-step reinforcement learning-based offloading for vehicle edge computing
CN116405493A (zh) 一种基于mogwo策略的边缘云协同任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant