CN114363857B

CN114363857B - 一种车联网中边缘计算任务卸载方法

Info

Publication number: CN114363857B
Application number: CN202210274496.6A
Authority: CN
Inventors: 陈赓; 徐先杰; 曾庆田; 郭银景; 孙红雨; 邵睿; 张旭
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-06-24
Anticipated expiration: 2042-03-21
Also published as: CN114363857A

Abstract

本发明公开了一种车联网中边缘计算任务卸载方法，属于移动通信技术领域，包括如下步骤：结合小区用户附近基站、行驶的车辆和带有奖励机制的停车场建立一个新型场景；通过当前的状态对建立的新型场景进行数学建模；结合车辆边缘网络效用和任务处理时延建立目标函数；采用DQN对目标函数进行最优化处理，得出最终的卸载方案。本发明解决了边缘计算中的任务卸载问题，将决策过程表述为一个马尔可夫过程，通过设立结合车辆边缘网络效用和时延的目标函数，使得问题公式化，使用DQN解决目标函数的最优化问题，得出最终的卸载策略。本发明扩大了小区的计算资源，并且在保证了用户上网体验的情况下，使得运营商的效用最大化。

Description

一种车联网中边缘计算任务卸载方法

技术领域

本发明属于移动通信技术领域，具体涉及一种车联网中边缘计算任务卸载方法。

背景技术

5G时代的到来，极大的促进了物联网时代的发展，并且为新的网络架构和智能服务打开了大门，伴随着越来越多的智能设备接入互联网，大量传感器设备终端的信息将会交由网络中心处理，这些信息不仅需要及时的处理，还要智能的进行数据分析，此时传统的基站和云计算的计算资源已经不能满足用户的需求，因为他们将会有较高的延时和有限的计算能力。车联网作为物联网的一部分，同样存在此问题。

边缘计算概念的提出成为解决此问题的关键技术，它可以将计算任务卸载到其他有计算资源的地方，从而可以减少网络中心的压力，提升用户的上网体验感。所以，车联网中亟需一种更好的计算任务卸载方法来提升计算能力，在均衡网络效用的同时降低时延。

发明内容

本发明提出的车联网中的一种基于DQN的边缘计算任务卸载方法，从网络效用和任务处理时延的角度出发，引入基于DQN的深度强化学习方法，来解决所提出的结合网络效用和任务处理时延的目标函数的优化问题，从而解决用户的计算任务卸载问题。

为了实现上述目的，本发明采用如下技术方案：

一种车联网中边缘计算任务卸载方法，包括如下步骤：

S1.结合小区用户附近基站、行驶的车辆和带有奖励机制的停车场建立一个新型场景；

S2.通过当前的状态对建立的新型场景进行数学建模；

S3.结合车辆边缘网络效用和任务处理时延建立目标函数；

S4.采用DQN对目标函数进行最优化处理，得出最终的卸载方案。

进一步地，所述方法中，车辆行驶道路和停车场位于小区附近，当小区内用户有计算任务产生时发送给基站进行处理，基站根据当前的目标函数最大化进行三种方案的决策，一是基站进行本地计算，给基站设置能量等级，计算能力随着剩余能量情况而改变，计算完成后返回给用户结果；二是将任务卸载到道路行驶中的车辆，车辆也会根据剩余能量的多少改变它的传输功率，此时会在基站的覆盖范围内选择车辆进行卸载，随着车辆的移动，若在覆盖范围内车辆未能完成此任务计算，则会在车辆行驶超出范围之前，根据应用程序迁移的方式，将剩余任务打包发送给后面的车辆进行处理，计算完成后通过基站返回给用户；三是将任务卸载到停车场内车辆，此时的车辆相当于一个小型的基站，计算完成后通过基站返回给用户，并且停车场内车辆的奖励机制吸引车主将车辆停到此处，从而扩大小区的计算资源。

进一步地，每种决策方案都设置依赖关系，若此种方案剩余能量不足或者此任务已经处理过，将会返回错误信息进行重新决策。

进一步地，对于任务的产生，使用networkx随机生成任务的依赖图，设置每次发送任务的数量和强度。

进一步地，对于停车场的奖励机制，当车辆被用作处理任务时，设置一个单价，根据计算任务的大小给予车主一定的回报。

进一步地，步骤S2的具体过程为：

S201.计算基站到道路车辆的任务传输速率：

（1）定义道路车辆v中第k个车辆和第i个任务之间的频谱效率为：

(1)

其中P _i为传输功率，假设所含能量少于满能量的一半时，传输功率也降为原先的一半，g _i,k为第i个任务到道路车辆中第k个车辆的无线传播的信道增益，

为车辆之间的相互干扰，σ ^v为道路车辆的噪声功率；

（2）定义η _i，k∈[0，1]表示第k个车辆分配给第i个任务的频谱百分比，得出道路车辆v中第k个车辆与第i个任务之间的传输速率为：

(2)

其中B为任务所属的用户到道路车辆的带宽；

S202.计算基站到停车场车辆的任务传输速率：

（1）定义停车场车辆p中第n个车辆和第i个任务之间的频谱效率为：

(3)

其中P _i为传输功率，同上，传输功率会随着剩余能量而改变，

为第i个任务到停车场车辆p中第n个车辆的无线传播的信道增益，

为车辆之间的相互干扰，

为停车场车辆的噪声功率；

（2）定义

∈[0，1]表示第n个车辆分配给第i个任务的频谱百分比，可以得出停车场车辆p中第n个车辆与第i个任务之间的传输速率为：

(4)

其中，B ₀为任务所属的用户到停车场车辆的带宽；

S203. 计算本地基站完成任务时间：

定义第i个任务为S_i={H _i, Z _i}，其中H _i表示任务数据的大小，Z _i表示完成任务所需要的计算资源数量，则本地基站完成任务的时间

为：

(5)

其中C _i,local为处理第i个任务时本地基站的计算能力，计算能力会随着所剩余能量的等级进行变化，假设当所剩余能量不足一半的时候，它的计算能力降为原先的1/5，此处由于本地计算不需要传输任务的通信时间，所以只需要统计计算时间；

S204. 计算道路车辆完成任务时间：

道路车辆需要经过基站传输任务，所以它的总时间包括任务的传输时间和任务的计算时间；其中：

通信时间为：

(6)

计算时间为：

(7)

其中，C _i,k为处理第i个任务时道路车辆v中第k个车辆的计算能力；

由通信时间加计算时间得出经过道路上车辆完成此次计算任务所需要的总的时间为：

(8)

S205. 计算停车场车辆完成任务时间：

停车场车辆计算任务同样需要基站先传输任务，然后再由车辆计算，它的时间也包括通信时间和计算时间两部分，其中：

通信时间为：

(9)

计算时间为：

(10)

其中，C _i,n为处理第i个任务时停车场车辆p中第n个车辆的计算能力；

则停车场中的车辆完成此次计算任务所需要的总的时间如下：

(11)。

进一步地，步骤S3的具体过程为：

S301.车辆边缘网络需要向用户与道路车辆和停车场内车辆传输计算任务进行收费，假设单价α _i，车辆边缘网络中道路车辆和停车场车辆通信都需要从无线网络中租赁，频谱单价分别为β _i,k，β _i,n，因此总的通信效用为：

（12）

其中，

和

分别为停车场车辆和道路车辆的卸载决策；

S302.基站向用户收取计算任务S _i的单价为b _i，同时车辆边缘网络中道路车辆和停车场车辆向无线网络租用的资源的单价分别为ε _i,k，ε _i,n；停车场车辆给予车主一定回报，回报的单价为r _i,n；则计算能效的公式为：

(13)

S303.第i个任务的网络效用公式为：

(14)

S304.目标函数采用车辆边缘网络产生的网络效用与时延之差的形式，如下所示：

(15)

其中

为第i个任务的传输和计算产生的网络效用，

为计算此任务所需的时延，调整网络效用和时延的权重增加侧重点，此处设置权重都为1；

S305.目标函数用于均衡网络效用和用户上网的体验，目标函数的越大，效用减去时延的差值越大，则网络效用越大而时延越小，即为目标函数的最佳状态，所以取

的最大值作为目标函数的最终取值，具体为：

(16)

其中，R ^v _i,k表示道路车辆v中第k个车辆与第i个任务之间的传输速率，R ^v _k表示道路车辆与用户通信总的传输速率，R ^p _i,n表示停车场车辆p中第n个车辆与第i个任务之间的传输速率，R ^p _n表示停车场车辆和用户通信的总的传输速率；I为一次发送的任务数，本发明的目标是完成一次发送任务的目标函数的最大化。

C1和C2保证了每个任务只能选择三种方式中的一种进行计算，其中d _i∈｛0，1｝表示是否将任务进行卸载，当d _i=0时表示不进行卸载，基站进行本地计算，当d _i=1时，表示进行卸载；p _i∈｛0，1｝、v _i∈｛0，1｝，当p _i=1时表示将任务卸载到停车场内的车辆，此外p _i=0；v _i=1时表示将任务卸载到道路上的车辆，此外v _i=0；

C3和C4保证了道路车辆和停车场车辆用于卸载的频谱不能超过它的总频谱。

进一步地，步骤S4的具体过程为：

基于DQN的计算卸载方法中，状态States、动作Actions和奖励值Rewards如下所示：

States有三个元素，包括t时刻已完成的任务数CTaks，目前所剩余的能量值Enery和任务的强度大小Intensity；

(21)

Actions包括卸载决策d _i，p _i，v _i，每个动作又有两个不同的能量等级，每个任务的动作空间长度为6；

(22)

Rewards为系统的目标函数，表示整个系统的网络效用减去所需时间的值，即在行为动作中获得的奖励，当任务不符合依赖关系或者剩余能量不足时，给予负的奖励，如下所示：

(23)

DQN网络中选取目标函数的值作为奖励，得出动作值之后直接选取奖励最大的动作，作为本次任务卸载的最终决策。

进一步地，采用深度强化学习中的DQN对目标函数进行最优化，主要包括以下步骤：

（1）设置训练次数、任务数、数据大小和强度等初始值；

（2）将状态s输入到评估网络，得到动作、奖励和下一步的状态s_并存储；

（3）从存储的值中随机抽取一部分每隔若干步进行训练更新；

（4）每隔若干步将评估模型的参数添加到目标模型。

本发明所带来的有益技术效果：

在用户和基站的基础上，结合道路中的行驶车辆、停车场建立新型场景，并通过给停车场设立奖励机制，充分利用停车场车辆资源，扩大小区用户的计算资源，同时在保证了用户上网体验的情况下，使得运营商的效用最大化；采用应用程序迁移的方式，改善行驶车辆的移动性所带来的问题；结合网络效用和处理任务的时延，建立了目标函数，同时采用DQN对目标函数进行优化，使得最终选择的卸载策略网络效用最大、时延最低。

附图说明

图1为车联网中边缘计算任务卸载方法的流程框图；

图2为本发明建立新型场景的示意图；

图3为本发明采用DQN对目标函数进行优化的流程框图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示为本发明的方法框图，包括如下四个过程：结合行驶的车辆和带有奖励机制的停车场建立了一个新型的场景；通过当前的状态对所述的场景进行数学建模；提出一个结合车辆边缘网络效用和时延的目标函数；采用DQN解决目标函数的最优化问题，从而得出最终的卸载方案。具体表现为：结合小区用户附近的基站、道路上行驶的车辆和停车场内的车辆的计算资源建立一个新型的场景，将进程表述为一个马尔可夫过程，对建立的场景进行数学建模，并且结合本场景下的网络效用和任务的处理时延作为目标函数，将计算卸载决策问题转化为求解函数最优解的问题，最后利用深度强化学习中的DQN通过训练一定次数，解决目标函数的最优问题，得出最优解，即一次任务的最终卸载决策等。

下面对每一过程作进一步的具体描述。

一、结合行驶的车辆和带有奖励机制的停车场建立了一个新型的场景。

如图2所示，本发明考虑了一个靠近道路的小区，小区附近设有奖励机制的停车场，当小区内用户UE _i有计算任务产生时会发送给基站进行处理，基站根据当前的目标函数最大化进行三种方案的决策。方案一：基站进行本地计算，基站设置能量等级，计算能力随着剩余能量情况而改变，计算完成后返回给用户结果；方案二：将任务卸载到道路行驶中的车辆V _k，车辆也会根据剩余能量的多少改变它的传输功率，此时会在基站的覆盖范围内选择车辆V _k进行卸载，随着车辆的移动，若在覆盖范围内车辆未能完成此计算任务，则会在车辆行驶超出范围之前，根据应用程序迁移的方式，将剩余任务打包发送给后面的车辆进行处理，计算完成后通过基站返回给用户；方案三：将任务卸载到停车场内车辆P _n，此时的车辆相当于一个小型的基站，计算完成后通过基站返回给用户，并且停车场内车辆的奖励机制吸引车主将车辆停到此处，从而扩大小区的计算资源。此外每种方案都会设置依赖关系，若此种方案剩余能量不足或者此任务已经处理过，将会返回错误信息进行重新决策。

对于任务的产生，本发明使用networkx随机生成任务的依赖图，可以设置每次发送任务的数量和强度，从而可以在仿真中观察方法的优劣。

对于车辆的移动性所带来的问题，可以结合应用程序迁移的方式来解决，假设计算任务由特定的应用程序产生，如图2所示，基站有一个覆盖范围，假设第一个车辆正在执行计算任务，随着车辆的移动，当第一个车辆将要驶出基站的覆盖范围的时候，如果计算任务并没有完成，可以将剩余任务进行存储打包，并将其发送给后面的车辆，后面的车辆在收到数据之后安装此数据包，然后具有继续处理任务的能力，如此传递，对车辆移动性所带来的问题应该有所改善。

对于特定停车场的奖励机制，由于在以后的车联网时代，每辆车都会有通信和计算单元，而大多数的车辆停在停车场的时间是比在路上的时间要多的，所以平时停在停车场的车辆的计算资源也应该充分利用，当车辆被用作处理任务的时候，可以设置一个单价，根据计算任务的大小给予车主一定的回报，从而可以吸引一部分车主来把车停到此处，进而扩大附近的计算资源。对于行驶中的车辆本发明没有考虑回报的问题，因为考虑在以后的车联网时代，车辆行驶在路上本身就需要不断地与网络进行交流。

二、通过当前的状态对所述的场景进行数学建模

此部分给出了三种方案的时延和车辆边缘网络效用，其中时延包括任务通信时间和计算时间，用户到基站的通信时间省略，只计算从基站到各处的时间。

首先定义d _i∈｛0，1｝，表示是否将任务进行卸载，当d _i=0时表示不进行卸载，基站进行本地计算，当d _i=1时，表示进行卸载；然后定义p _i∈｛0，1｝、v _i∈｛0，1｝，当p _i=1时表示将任务卸载到停车场内的车辆，此外p _i=0；v _i=1时表示将任务卸载到道路上的车辆，此外v _i=0。

通信时间包括基站到道路车辆、基站到停车场车辆的通信时间，由于距离较近，此处省略用户到基站的通信时间，同时也省略任务的返回时间。

1.基站到道路车辆的任务传输速率相关计算过程：

(1)

其中P _i为传输功率，本发明假设所含能量少于满能量的一半的时候，传输功率也降为原先的一半，g _i,k为第i个任务到道路车辆中第k个车辆的无线传播的信道增益，

为车辆之间的相互干扰，σ ^v为道路车辆的噪声功率。

（2）定义η _i，k∈[0，1]表示第k个车辆分配给第i个任务的频谱百分比，可以得出道路车辆v中第k个车辆与第i个任务之间的传输速率为：

(2)

其中B为任务所属的用户到道路车辆的带宽。

2.基站到停车场车辆的任务传输速率相关计算过程：

(3)

为车辆之间的相互干扰，

为停车场车辆的噪声功率。

（2）定义

∈[0，1]表示第n个车辆分配给第i个任务的频谱百分比，可以得出停车场车辆p中第n个车辆与第i个任务的传输速率为：

(4)

其中，B ₀为任务所属的用户到停车场车辆的带宽。

3.本地基站完成任务时间计算：

定义第i个任务为S _i={H _i, Z _i}，其中H _i表示任务数据的大小，Z _i表示完成任务所需要的计算资源数量，则本地基站完成任务的时间

为：

(5)

其中C _i,local为处理第i个任务时本地基站的计算能力，计算能力也会跟着所剩余能量的等级变化，本发明假设当所剩余能量不足一半的时候，它的计算能力降为原先的1/5，此处由于本地计算不需要传输任务的通信时间，所以只需要统计计算时间就可以。

4.道路车辆完成任务时间计算：

道路车辆需要经过基站传输计算任务，所以它的总时间包括任务的传输时间和任务的计算时间。其中：

通信时间为：

(6)

计算时间为：

(7)

(8)

5.停车场车辆完成任务时间计算：

停车场车辆计算任务同样需要基站先传输任务，然后再由车辆计算，它的时间也包括两部分，即通信时间和计算时间，其中：

通信时间为：

(9)

计算时间为：

(10)

则停车场中的车辆完成此次计算任务所需要的总的时间为：

(11)

三、提出一个结合网络效用和时延的目标函数

此部分给出三种方案的网络效用，其中包括通信效用和计算能效，计算能效中还需要减去回报给车主的部分。

由上面的介绍已经知道了本发明的网络架构和基本模型，下面通过计算各个卸载方案的网络效用，然后给出由车辆边缘网络效用和时延相结合的目标函数，通过比较三种方案目标函数的大小，选取最优的一种卸载决策，即为本次计算任务卸载的最终决策。

车辆边缘网络需要向用户与道路车辆和停车场内车辆传输计算任务进行收费，假设单价α _i，然后车辆边缘网络中道路车辆和停车场车辆的通信都需要从无线网络中租赁频谱，假设租赁频谱的单价分别为β _i,k，β _i,n，因此总的通信效用是

（12）

其中，

和

分别为上文中提到的停车场车辆和道路车辆的卸载决策；

下面分析了各个卸载方案的网络效用基站向用户收取计算任务S _i的单价为b _i，同时车辆边缘网络中道路车辆和停车场车辆向无线网络租用的资源的单价分别为ε _i,k，ε _i,n。并且为了吸引车主将车辆停到此处，停车场车辆还需要给与车主一定的回报，定义它的单价为r _i,n。于是得到了下面的计算能效的公式：

(13)

所以将通信效用加上计算效用就得出第i个任务的网络效用公式：

(14)

本发明的目标函数采用车辆边缘网络产生的网络效用与时延之差的形式，如下所示：

(15)

其中

为对第i个任务的传输和计算产生的网络效用，

为计算此任务所需的时延，可以调整网络效用和时延的权重增加侧重点，此处设置权重都为1，本发明设置此目标函数的目的是为了均衡网络效用和用户上网的体验，目标函数越大，说明网络效用减去时延的差值越大，即网络效用越大而时延越小，这正是本发明所追求的最佳状态，故取

的最大值作为目标函数的最终取值，计算过程如下。

(16)

其中，R ^v _i,k表示道路车辆v中第k个车辆与第i个任务之间的传输速率，R ^v _k表示道路车辆与用户通信总的传输速率，R ^p _i,n表示停车场车辆p中第n个车辆与第i个任务之间的传输速率，R ^p _n表示停车场车辆和用户通信的总的传输速率；I为一次发送的任务数，本发明的目标是完成一次发送任务的目标函数的最大化，C1和C2保证了每个任务只能选择三种方式中的一种进行计算，C3和C4保证了道路车辆和停车场车辆用于卸载的频谱不能超过它的总频谱。

四、采用DQN解决目标函数的最优化问题，从而得出最终的卸载方案。

把此方案的决策过程近似表述为一个马尔可夫过程，即下一时刻的行为动作只与当前时刻的状态有关，如下所介绍，可以利用DQN来解决马尔可夫决策过程。

强化学习就是通过agent对环境造成影响，环境根据动作做出相应的变化，反馈给agent，然后agent根据当前的状态再选择下一个动作，其中选择的基本原则是获得奖励最大，主要任务就是通过在环境中的不断探索，根据探索获得的反馈信息调整策略，最终生成一个较好的策略，agent根据这个策略便能够知道在什么状态下应该执行什么动作。其中Q-learning首先会初始化一个Q表，用来存储状态和动作值，每一个回合都会根据下面的公式进行更新一次Q表：

(17)

其中的α为学习效率，r代表奖励值，γ为奖励衰减参数，Q就是在某一步的状态s下，采取动作a所能获取的收益的期望，然后agent在某一状态下，根据Q表选择奖励最大的动作；s'为下一步状态，a'为下一步动作。

DQN是深度强化学习的一种，它和Q-learning都是基于值迭代的方法，当状态和动作空间是离散并且维数不高的时候可以使用Q表来存储每个状态动作对的值，但是当状态和动作空间是高维且连续的时候，在众多状态动作对中再使用查表的方式就会有些困难，而深度学习最擅长的就是提取数据的特征，所以DQN不需要存储Q表，只需要输入状态和动作值然后通过神经网络直接生成Q值，或者是只输入状态值然后输出所有的动作值，然后按照Q-learning的原则直接选择拥有最大值的动作，这正是本发明所使用方法。

DQN的两个关键技术：第一个是Experience Reply，将数据存储到一个数据库中，然后在此数据库中采用随机采样的方法抽取数据进行训练，通过经验回放可以打破数据之间的关联，使得神经网络的表现更稳定。第二个是Fixed Q-target，采用一个更新较慢的网络专门提供Q值，用于动作值函数逼近的网络每一步都更新，而用于计算目标网络的每隔固定的步数更新一次，这使得训练更加的稳定。

其中目标网络中的目标Q值为：

(18)

其中，

为神经网络权重参数；

损失函数通过更新权重尽量减小损失，定义为目标值和预测值之间的均方差：

(19)

E表示取均值；

在学习过程中，如图3所示，DQN中使用了两个不同的网络模型（估计模型和目标模型），当代理对环境采取动作之后，可以根据公式计算出Q值，反馈给损失函数后，通过反向传播使用梯度下降的方法来更新估计网络的参数，此时目标网络会被暂时冻结，每隔N步将估计模型的参数复制给目标网络，这样就完成了一次学习过程。

DQN的更新公式同Q-learning一样：

(20)

本发明使用的基于DQN的计算卸载方法流程如图3所示，其中的状态States、动作Actions和奖励值Rewards如下所示：

States在本发明中有三个元素，包括t时刻已完成的任务数CTaks，目前所剩余的能量值Enery和任务的强度大小Intensity。

(21)

Actions包括卸载决策d _i，p _i，v _i，即是否进行卸载和将任务卸载到哪里，每个动作又有两个不同的能量等级，所以本发明中每个任务的动作空间长度为6。

(22)

Rewards在本发明中即为系统的目标函数，表示整个系统的网络效用减去所需时间的值，即在行为动作中获得的奖励，当任务不符合依赖关系或者剩余能量不足时，给予负的奖励，如下所示：

(23)

本发明DQN网络中选取目标函数的值作为奖励，得出动作值之后直接选取奖励最大的动作，即为本次任务卸载的最终决策。

采用DQN的训练过程，进行学习，在运行足够次数之后就会输出目标函数的最大值所对应的动作，即任务卸载的最终决策。一种车联网中基于DQN进行模型训练进行边缘计算任务卸载的过程伪代码如下：

1、输入训练次数，任务数，任务大小，任务强度大小等初始值；

2、for 每个回合；

3、初始化环境、观测值；

4、if flag是true；

5、创建任务；

6、通过观测值在DQN中选择动作；

判断任务队列；

if 随机值<贪婪值；

判断任务队列，使得之前任务的动作值为无穷小；

选择最大动作值的动作；

else

随机选择动作；

返回动作；

7、基于以上动作得到下一步的观测值、奖励、done；

8、基于动作得到策略分类中的最大奖励值；

9、if 不符合依赖关系；

10、done=false；

11、奖励为负的最大奖励；

12、返回状态、奖励、done；

13、else

14、基于动作得到最大奖励、时间、消耗能量；

15、if 任务完成；

16、奖励为最大奖励减去此时的任务处理时间；

17、else

18、done = false；

19、奖励为最大奖励减去此时的任务处理时间；

20、返回状态、奖励、done；

21、存储过渡参数：观测值、动作、奖励和下一步的观测值；

22、if step>200且每隔十步；

23、进行学习；

在记忆库里随机选择状态；

设置

；

对

进行参数为

的梯度下降；

24、观测值为下一步的观测值；

25、if done；

26、跳出循环。

其中，

表示第j步时的目标值，

表示第j步时的奖励；

表示奖励衰减系数；

表示下一步的动作；Q表示所能获取奖励的期望值，

表示j+1步时的状态，θ为网络权重参数，

表示第j步的动作。

该方法中采用了深度强化学习中的DQN解决目标函数的最优化问题，主要分为以下几个步骤：

（1）设置训练次数、任务数、数据大小和强度等初始值；

（4）每隔若干步将评估模型的参数添加到目标模型。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种车联网中边缘计算任务卸载方法，其特征在于，包括如下步骤：

车辆行驶道路和停车场位于小区附近，当小区内用户有计算任务产生时发送给基站进行处理，基站根据当前的目标函数最大化进行三种方案的决策，一是基站进行本地计算，给基站设置能量等级，计算能力随着剩余能量情况而改变，计算完成后返回给用户结果；二是将任务卸载到道路行驶中的车辆，车辆也会根据剩余能量的多少改变它的传输功率，此时会在基站的覆盖范围内选择车辆进行卸载，随着车辆的移动，若在覆盖范围内车辆未能完成此任务计算，则会在车辆行驶超出范围之前，根据应用程序迁移的方式，将剩余任务打包发送给后面的车辆进行处理，计算完成后通过基站返回给用户；三是将任务卸载到停车场内车辆，此时的车辆相当于一个小型的基站，计算完成后通过基站返回给用户，并且停车场内车辆的奖励机制吸引车主将车辆停到此处，从而扩大小区的计算资源；

每种决策方案都设置依赖关系，若此种方案剩余能量不足或者此任务已经处理过，将会返回错误信息进行重新决策；

对于任务的产生，使用networkx随机生成任务的依赖图，设置每次发送任务的数量和强度；

对于停车场的奖励机制，当车辆被用作处理任务时，设置一个单价，根据计算任务的大小给予车主回报；

S2.通过当前的状态对建立的新型场景进行数学建模；具体过程为：

S201.计算基站到道路车辆的任务传输速率：

(1)

为车辆之间的相互干扰，σ ^v为道路车辆的噪声功率；

（2）定义η _i，k∈[0，1]表示道路车辆中第k个车辆分配给第i个任务的频谱百分比，得出道路车辆v中第k个车辆与第i个任务之间的传输速率为：

(2)

其中B为任务所属的用户到道路车辆的带宽；

S202.计算基站到停车场车辆的任务传输速率：

(3)

为车辆之间的相互干扰，

为停车场车辆的噪声功率；

（2）定义

∈[0，1]表示停车场车辆中第n个车辆分配给第i个任务的频谱百分比，得出停车场车辆p中第n个车辆与第i个任务之间的传输速率为：

(4)

其中，B ₀为用户到停车场车辆的带宽；

S203. 计算本地基站完成任务时间：

为：

(5)

S204. 计算道路车辆完成任务时间：

道路车辆需要经过基站传输计算任务，所以它的总时间包括任务的传输时间和任务的计算时间；其中，

通信时间为：

(6)

计算时间为：

(7)

(8)

S205. 计算停车场车辆完成任务时间：

停车场车辆计算任务同样需要基站先传输任务，然后再由车辆计算，它的时间也包括通信时间和计算时间两部分；其中，

通信时间为：

(9)

计算时间为：

(10)

则停车场中的车辆完成此次任务所需要的总的时间如下：

(11)；

S3.结合车辆边缘网络效用和任务处理时延建立目标函数；具体过程为：

S301.车辆边缘网络需要向用户与道路车辆和停车场内车辆传输任务进行收费，假设单价为α _i，车辆边缘网络中道路车辆和停车场车辆通信都需要从无线网络中租赁，频谱单价分别为β _i,k，β _i,n，因此总的通信效用为：

（12）

其中，

和

分别为停车场车辆和道路车辆的卸载决策；

S302.基站向用户收取计算任务S _i的单价为b _i，同时车辆边缘网络中道路车辆和停车场车辆向无线网络租用的资源的单价分别为ε _i,k，ε _i,n；停车场车辆给予车主回报，回报的单价为r _i,n；则计算能效的公式为：

(13)

S303.第i个任务的网络效用公式为：

(14)

(15)

其中F _u(i)为第i个任务的传输和计算产生的网络效用，T _i为计算此任务所需的时延，调整网络效用和时延的权重增加侧重点，此处设置权重都为1；

S305.目标函数用于均衡网络效用和用户上网的体验，目标函数的越大，效用减去时延的差值越大，则网络效用越大而时延越小，即为目标函数的最佳状态，所以取F(i)的最大值作为目标函数的最终取值，具体为：

(16)

其中，R ^v _i,k表示道路车辆v中第k个车辆与第i个任务之间的传输速率，R ^v _k表示道路车辆与用户通信总的传输速率，R ^p _i,n表示停车场车辆p中第n个车辆与第i个任务之间的传输速率，R ^p _n表示停车场车辆和用户通信的总的传输速率；I为一次发送的任务数，目标是完成一次发送任务的目标函数的最大化；

C3和C4保证了道路车辆和停车场车辆用于卸载的频谱不能超过它的总频谱；

S4.采用DQN对目标函数进行最优化处理，得出最终的卸载方案；具体过程为：

(21)

(22)

(23)

DQN网络中选取目标函数的值作为奖励，得出动作值之后直接选取奖励最大的动作，作为本次任务卸载的最终决策；

采用深度强化学习中的DQN对目标函数进行最优化，包括以下步骤：

（1）设置训练次数、任务数、数据大小和强度初始值；

（4）每隔若干步将评估模型的参数添加到目标模型。