CN116996938A

CN116996938A - 车联网任务卸载方法、终端设备及存储介质

Info

Publication number: CN116996938A
Application number: CN202310923727.6A
Authority: CN
Inventors: 梁伟; 蔡佳洪; 徐建波; 李冠憬; 李雄; 黄卫红; 龚银燕; 王漠
Original assignee: Hunan University of Science and Technology
Current assignee: Hunan University of Science and Technology
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-11-03

Abstract

本发明公开了一种车联网任务卸载方法、终端设备及存储介质，采用基于Simulated Annealing‑‑Double DQN的车联网任务卸载方法，更合理地分配Infras的算力资源。采用模拟退火算法，将Infras的算力资源合理分配给Infras所在的边缘网络中车辆所需处理的任务，利用Simulated Annealing算法的全局最优解搜索优势，避免出现DQN决策中局部最优解所带来的过高估计问题。本发明可以充分利用智能终端的计算资源以及边缘云的计算资源，充分满足大规模移动车辆的任务处理需求，同时还能使用更小的开销进行任务卸载的方法，提高了任务卸载方法的自适应性。

Description

车联网任务卸载方法、终端设备及存储介质

技术领域

本发明涉及机器学习领域，尤其涉及一种车联网任务卸载方法、终端设备及存储介质。

背景技术

在物联网领域，车联网技术在良好的训练及其发展下能够在智能交通系统中得到适当的应用，并展现出良好的性能。然而随着物联网技术的高速发展，网络中的设备数量呈爆炸性的增长，传统的云服务器集中处理车联网数据的方法已经无法满足整体网络的需求。另外，由于车流分布经常是不均匀的，这将会导致智能路侧设备(RSU)的综合使用情况达不到预期标准，部分RSU所包含的范围内流量过大，这将导致该RSU经常遭遇过载的情况。而部分RSU所包含的区域中所需处理的计算和通信任务相当小，剩余的资源没有得到充分的利用，这将导致网络整体的时延增加，效率将会有一定程度的降低。

当车辆要处理的任务数据量大时，需要通过权衡任务处理的能耗、时延等指标达到综合最优情况，将数据处理任务分发给边缘节点或者云网络，这种任务分发的方式称为车联网移动边缘计算的任务卸载。车联网任务卸载可以分为以下三类：

1.本地执行：本地执行为任务卸载的理想状态，车辆的处理能力可以满足所需的计算、通信资源的需求，这将大大减少车辆上传数据以及从边缘云下载任务处理结果的时间，进而提升系统的运行效率。

2.部分卸载：车辆所需处理任务的数据量较大，无法进行本地执行，并且任务可以被分解为多个相关性不大的子任务时，将使用该方法，该方法作为细粒度的任务卸载方法，可根据实际情况在本地执行任务量较小的任务，在边缘云解决剩余的任务。

3.完全卸载：对于某些需要使用大量计算和通信资源的任务，所需处理的大数据量的任务无法分解为多个不相干扰的任务时，该任务将完全卸载给有能力处理且空闲的边缘云，该方法属于粗粒度的任务卸载方法。

随着技术的发展，越来越多的高性能车联网任务卸载方法被提出，但是这些方法都是仅仅只优化了模型的规划问题，常规的车联网任务卸载方法无法对将来一段时刻的车辆网络情况进行预测，也无法做到针对快速动态变化的车联网场景进行自适应的任务卸载。在智能体的学习过程中对于专家经验太过于依赖，在自我学习的能力上还有所欠缺，导致不可以更全面地感知复杂系统的整体情况，也就不可以进行更优更精确的决策，还将导致现有的车联网场景下无法实时地根据场景进行自适应的任务卸载的问题。

因此需要一个可以高效的整合各个RSU以及云网络的计算和通信资源的方法，来提高计算效率，实现驾驶员可以更快捷更精确的实施正确操作目的，需要一个可以对未来的交通状况进行预测并能对预测的结果采区相应措施的方法，来对未来危险事故发生的有效预防，实现更加高效的车联网卸载，还需要一个可以充分利用智能终端的计算资源以及边缘云的计算资源，充分满足大规模移动车辆的任务处理需求的同时，还能使用更小的开销进行任务卸载的方法，提高任务卸载算法的自适应性。

发明内容

本发明的目的在于提供一种车联网任务卸载方法、终端设备及存储介质，有效的解决对车辆网络情况预测不准确的问题。

本发明是通过如下的技术方案来解决上述技术问题的：一种车联网任务卸载方法，包括以下步骤：

S1、以当前环境下全网的任务卸载压力作为模拟退火算法的输入，得到模拟退火算法的初始解P_g；

S2、对于每辆车，在给定的时间点上运行模拟退火算法，获得新的解Y；

S3、选取两个参数不同的神经网络，该两个参数不同的神经网络分别为主网络和目标网络；若所述新的解Y小于旧解，则将所述新的解Y作为当前的解，从构建的动作集中随机选取动作a作为时间t的任务卸载动作a_t；若所述新的解Y大于旧解，则时间t的任务卸载动作通过主网络和当前时间t的状态s_t获得预测的动作集合；Q(s_t，a|θ)表示主网络参数为θ，状态s_t下动作为a时的输出值，即Q值；A表示动作空间；a_i为从A中随机选取的第i个动作；通过主网络和当前时间t的状态s_t获得预测的动作集合的具体实现过程包括：将当前状态s_t的下一状态s_t+1作为目标网络的输入，获得目标网络在下一状态为s_t+1、主网络Q值最大时的动作对应的Q值/>计算目标网络的输出；将主网络的输出Q值、目标网络的输出作为损失函数的输入，计算所述损失函数的梯度，利用所述梯度调整主网络的参数，同时对目标网络的参数进行软更新，软更新结束后，得到的目标网络即为当前任务卸载模型，利用所述当前任务卸载模型获取预测的动作集合；

S4、重复步骤S3，直至重复次数达到模拟退火算法的迭代次数，得到更新后的状态和动作，进入步骤S5；

S5、将更新后的状态赋值给当前状态s，根据更新后的状态执行相应的决策动作，进行任务卸载。

本发明的方法还包括：

S6、判断车辆的本地资源是否可以处理任务，若是，则计算任务卸载时延；否则，判断能否使用V2V的任务卸载方式处理任务，若能，则执行V2V模式的任务卸载，计算V2V的数据上传速率和任务卸载时延；若不能，则使用V2I任务卸载方式处理任务，计算V2I的数据上传速率以及计算任务卸载时延。

本发明的方法还包括：

S7、任务卸载后，获得相应的奖励r_t。

本发明的方法还包括：

S8、将当前时间t对应的状态、动作、奖励和最新的状态收集进经验收集器中；

S9、利用经验收集器中的值计算主网络Q值的估计值 θ_t为时间t主网络的参数值；

S10、将主网络Q值的估计值目标网络的输出作为损失函数的输入，计算所述损失函数的梯度，利用所述梯度更新主网络的参数，同时对目标网络的参数进行软更新；

S11、将更新后的主网络和目标网络分别替换步骤S3的主网络和目标网络，开始下一轮计算。

本发明还提供了一种终端设备，其包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明上述方法的步骤。

本发明中，所述多个处理器包括：

本地服务器，用于在本地资源充足时进行任务卸载；

中心云服务器，用于在本地资源不足时进行任务卸载。

本发明还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

有益效果

与现有技术相比，本发明的优点在于：本发明采用基于Simulated Annealing--Double DQN的车联网任务卸载方法，可以更合理地分配Infras的算力资源。本发明采用模拟退火算法，将Infras的算力资源合理分配给Infras所在的边缘网络中车辆所需处理的任务，利用Simulated Annealing算法的全局最优解搜索优势，避免出现DQN决策中局部最优解所带来的过高估计问题。本发明可以充分利用智能终端的计算资源以及边缘云的计算资源，充分满足大规模移动车辆的任务处理需求，同时还能使用更小的开销进行任务卸载的方法，提高了任务卸载方法的自适应性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一个实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例基于强化学习的任务卸载算法SA-DDON示意图；

图2是折扣率对本发明实施例SA-DDON算法奖励的影响示意图；

图3是学习率对本发明实施例SA-DDON算法奖励的影响示意图；

图4是MEC中车辆数量对任务卸载算法延迟的影响示意图；

图5是边缘计算服务器计算能力对任务卸载算法时延的影响示意图；

图6是传输速率对不同车辆任务卸载算法时延的影响示意图；

图7是任务数据量对任务卸载算法的能耗影响示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

实施例1

本实施例提供了一种以基础设施为服务(IaaS)的双深度Q网络的高效任务卸载方法，包括如下步骤：

S1：网络参数θ和θ′，以当前环境的局部解为模拟退火算法的输入，得到模拟退火算法的初始解P_g；

S2：对于每辆车在都在给定的时间点上运行SA算法获得一个新的解Y；

S3：选取两个参数不同的神经网络Q和Q′，该两个参数不同的神经网络分别为主网络和目标网络；若所述新的解Y小于旧解，则将所述新的解Y作为当前的解，从构建的动作集中随机选取动作a作为时间t的任务卸载动作a_t；若所述新的解Y大于旧解，则时间t的任务卸载动作通过主网络和当前时间t的状态s_t获得预测的动作集合；Q(s_t，a|θ)表示主网络参数为θ，状态s_t下动作为a时的输出值，即Q值；A表示动作空间；a_i为从A中随机选取的第i个动作；通过主网络和当前时间t的状态s_t获得预测的动作集合的具体实现过程包括：将当前状态s_t的下一状态s_t+1作为目标网络的输入，获得目标网络在下一状态为s_t+1、主网络Q值最大时的动作对应的Q值/>计算目标网络的输出；将主网络的输出Q值、目标网络的输出作为损失函数的输入，计算所述损失函数的梯度，利用所述梯度调整主网络的参数，同时对目标网络的参数进行软更新，软更新结束后，得到的目标网络即为当前任务卸载模型，利用所述当前任务卸载模型获取预测的动作集合；

S4：如果新的解大于旧解的话，则a_t是一个决策动作集合(任务卸任类别的选择)，通过神经网络Q和当前时间t的状态s_t(当前时刻的当前边缘网络的车辆信息以及边缘云服务器的运行情况)获得预测的动作集合；

S5：对Step3和Step4进行n次重复，其中n是模拟退火算法所设置的迭代次数。

S6：将模拟退火算法预测的状态s′赋值给当前状态s，然后根据状态-动作对应表Q-table执行相应的决策动作a_t进行任务卸载。

S7：对车辆的计算资源进行判断。

S8：如果本地资源可以处理任务，则进行本地执行，计算任务卸载时延

S9：否则进行任务卸载方式来处理任务，进行部分的任务卸载。

S10：如果可以使用V2V的任务卸载方式来处理任务就执行V2V模式的任务卸载，且计算V2V的数据上传速率和任务卸载时延/>

S11：如果不可以用V2V来进行任务卸载就使用V2I任务卸载方式来处理任务，计算V2I的数据上传速率以及计算任务卸载时延

S12：任务卸载后，获得相应的奖励r_t；

S13：将当前时间t状态s_t、动作a_t、奖励r_t和最新的状态s_t+1收集进经验收集器中；

S14：利用经验收集器中的值计算神经网络目标Q的估计值

S15：更新网格参数θ和θ′；

S16：将更新后的主网络和目标网络分别替换步骤S3的主网络和目标网络，开始下一轮计算。

优选地，利用中心云服务器的强大算力，处理车联网边缘计算架构中智能终端中由于任务量过大而超出其计算能力的需要进行共同处理的部分，建立起一个以车联网移动边缘计算为系统结构的任务卸载模型，任务卸载模型分为两个部分，分别是本地执行和任务卸载。

(1)本地执行

若当前任务在本地执行，则不考虑其任务的传输开销，只考虑其计算任务所产生的开销，K_i表示所需要处理任务的使用的计算资源，U_i表示任务车辆TV_i自身可用于处理任务的计算资源，本地执行的时延如下所示：

(2)任务卸载

Simulated Annealing--Double DQN算法如下。当执行任务所需的计算、通信资源在TV_i本地无法得到满足时，可将执行的任务分解为几个互不干扰的子任务，计算量较大的子任务卸载到边缘云执行，剩余子任务仍在执行TV_i。车联网移动边缘计算架构中存在着大量智能终端，当智能终端的计算能力超出任务所需要的资源时，智能终端会向边缘云发起共同解决任务的请求。TV_i将需要边缘云处理的内容转发至RSU，边缘云接收后经过计算，将得出的结果通过RSU返回给TV_i。每次TV_i将任务卸载给边缘云的时间可以记为任务的上传时间加上任务的计算时间，即为：其中/>为在V2I通信时将任务卸载给边缘云的时间，/>为TV_i与Infras间的传输速率，N_i是任务的大小，K_i是处理任务需要的计算资源，U_EdgeCloud是边缘云计算可用于处理任务的计算资源。

本发明实施例中，车联网被划分为多个边缘网络，每个边缘网络中的边缘服务器可以解决边缘网络中大部分的计算和通信需求，针对边缘网络中智能设备无法处理的任务，边缘服务器可以提供大量的算力支持，边缘服务器将根据智能终端发送的请求以及网络中的计算资源分配以及节点带宽，选择最优的策略，解决传统架构中智能设备通过云服务器进行通讯而增加的大量开销。

优选地，车联网移动边缘计算中的主要通信集中在2大部分，一个是V2V通信，另一个是V2I通信；本发明实施例选择车联网计算中的主要通信方式为V2I通信。

优选地，Vehicles to Vehicles(V2V)通信网络模型采用分布式协调工作函数中的IEEE 802.11p协议。

优选地，Vehicles to Infrastructure(V2I)的通信网络模型采用LTE通信协议的直连链路进行通信。

优选地，车辆根据本身的系统负载和现有的计算资源做出选择，一般分为本地执行操作与任务卸载操作。

优选地，本地环境足以满足任务运行的需求时，将不进行任务卸载，全部任务在本地执行。

优选地，当任务所需的计算、通信资源在本地无法得到满足时，可将执行的任务分解为几个互不干扰的子任务，计算量较大的子任务卸载到边缘执行，剩余子任务仍在本地执行。

优选地，本发明实施例采用基于Simulated Annealing--Double DQN的车联网任务卸载方法可以更合理地分配Infras的算力资源。为了避免出现DQN决策中局部最优解所带来的过高估计问题，本发明采用Simulated Annealing算法(模拟退火算法)，将Infras的算力资源合理分配给Infras所在的边缘网络中车辆所需处理的任务，利用SimulatedAnnealing算法的全局最优解搜索优势。

优选地，强化学习有几大要素：智能体(Agent)，状态(State)，动作(Action)，奖励(Reward).在车联网移动边缘计算环境中，车联网(Internet of Vehicles)中的基础设施(Infrastructure)即为Agent Infras。Infras记录当前边缘网络的车辆信息以及边缘云服务器的运行情况，根据当前环境的状况采取动作，执行动作后获得的奖励都将被记录，Infras所有的状态和动作都将被记录在Q-table当中。基础设施将根据Q-table的记录，做出未来时刻的最优选择，以通过最优的方式解决环境当中车辆所需处理的任务。

优选地，状态空间S指的是Infras所有可能出现的状态s的集合，状态s在t时刻的状态表示为s_t，t+1时刻的状态表示为s_t+1，Infras_TL表示Infras机器的负载情况表示Infras的边缘网络中第i辆车在t时刻的速度v，/>表示第i辆车在t时刻的位置L，/>表示第i辆车在t时刻的计算能力。

优选地，动作空间A指的是Infras所有可能出现的动作a的集合，可表示为A＝{a_t，j＝1，2，...，N}，动作a即为Infras根据目前状态所做的决策，动作a在t时刻所采取的动作表示为a_t，动作的选取可以是确定的，也可以是随机的。其中，随机选取动作指的是以一定的概率p选取一个动作a_k。Infras_TL表示Infras机器的负载情况，表示Infras的边缘网络中第i辆车在t时刻的速度，/>表示第i辆车在t时刻的位置，/>表示第i辆车在t时刻的计算能力。

优选地，奖励函数r指的是Infras执行动作后，环境返回给实体的具体数值，我们将奖励函数记为r(s_t，a_t，s_t+1)，其中s_t为当前时刻的状态，a_t为当前所执行的动作，s_t+1为下一时刻的状态。通常情况下，奖励函数的值都是有界的。所有奖励的总和记为V，t时刻的奖励记为v_t：

v_t＝r_t+γr_t+1+γ²r_t+2+γ³r_t+3+…

优选地，状态转移指的是Infras在t时刻的状态s_t到t+1时刻的状态s_t+1的过程。在状态s_t时执行动作a_t后，状态将变为s_t+1，并用Q-table记录之前所经历过的状态、动作和奖励。状态转移是一个确定的过程，给定状态s_t和动作a_t，通过环境可以计算出下一时刻的状态s_t+1，即下一时刻的状态s_t+1完全由状态s_t与动作a_t所决定的。其中状态转移概率函数记为：

p_t(s′|s，a)＝P(S′_t+1＝s′|S_t＝s，A_t＝a)；

Q-learning算法作为一种强化学习中通过动作的价值来选取特定的动作方法，它使用Q-table来学习过往的状态s和动作a以及奖励r；Q-learning的步骤如下：

从任意的状态出发

1.用noisy-greedy的策略选定动作A；

2.在完成动作后，会进入新状态St+1；

3.检查St+1中所有动作，看看哪个动作的Q值最大；

4.用以下的公式更新当前动作A的Q值；

5.继续从s′出发，进行下一步更新。1～4步作为一个周期，进行N个周期的迭代。

Q-learning算法也是一种Model-free的方法，每一步都等待真实环境中的反馈并进行决策，在进行决策的过程中，Q-learning算法可以对过往经验进行不断的学习，以进行更优的决策，该方法叫做Off-police的强化学习。

Q-learning进行决策时采用的是贪婪策略α。Q(s₁，a₂)的估计值为Q(s，a)，Q(s₁，a₂)的现实值为r+γmax_a′Q(s′，a′)，其中Q(s₁，a₂)表示在状态S₁下采取行动a₂下获得的奖励期望值，也称为估计值，现实值和估计值的差距为Q_dis：

Q_dis＝r+γmax_a′Q(s；a′)-Q(s，a)；

其中，r为之前所做动作获得的奖励，γ为衰减值，max_a′Q(s′，a′)表示Q(s₂)的最大估计。

本发明实施例将旧的Q(s₁，a₂)值加上贪婪策略α乘以现实值和估计值的差距，表示如下：

Q(s，a)←Q(s，a)+α[r+γmax_a′Q(s′，a′)-Q(s，a)；

当Q-table所要存储的信息值过大，它将无法存储每一个状态s以及在s中的每个动作a所拥有的Q值，并且在如此之多的数据表格中进行信息检索是一件很困难的事情，但是，我们使用状态和动作作为深度神经网络的输入，再通过深度神经网络分析得到Q值，这种方式直接使用DNN生成Q值，而非进行大量数据的存储。

在Deep Q Network中将有结构相同但参数不同的两个神经网络被选择，target_net用于预测Q_target的值，该神经网络并不会及时更新参数，eval_net用于预测Q_eval的值，该神经网需要及时地更新参数。 Q_eval神经网络具备最新的参数，Q_target中所使用的参数一般不进行更新，通过两个深度神经网络的差异来修正Q值，进而更新Q-table的值。其中，Q_target的估计值可以表示为：

本发明实施例融合了深度神经网络，虽然可以在整体数据中进行更快的数据查找。但使用深度神经网络进行Q-learning还是有较大的误差影响的，Q-learning的所有目标值都是通过贪婪策略得到的值，所以经过一次又一次的预测，很容易导致Q_max的过拟合。

引入Double Deep Q Network目的是通过另一个深度神经网络的引入来减少最大误差的影响。通过Q_target的动作选择以及Q_target的计算来消除overestimate。目标神经网络的Q实际值可以表示为：

目标神经网络的Q估计值可以表示为：

本发明实施例所提出的Simulated Annealing--Double DQN算法在上文已作说明。

实验结果分析：

本发明实施例所采用的实验平台的性能：AMD Ryzen 9 5900X 12核3.7GHz105WCPU，Tesla V100 32G显卡，IBM 46C7449 DDR3 8192GB，惠普6TB SAS接口7200转，SAMSUNG870SATA3.0 8TB SSD，软件环境为Ubuntu 18.04.6，Python3.7。

为研究车联网移动边缘计算架构中任务卸载对车联网的性能影响，我们将根据折扣率和学习率对学习对SA-DDQN算法奖励的影响、MEC中车辆数量对任务卸载算法时延的影响、传输速率对不同车辆任务卸载算法时延的影响、任务数据量对任务卸载算法的能耗影响作为本实验性能评估的关键指标。

通过实验测试，我们比较了本发明的SA-DDQN算法与Edge、Actor-critic、DQN、DDQN等算法在不同GPU利用率下的边缘网络智能设备的数量个数，得出结论，Edge算法是通过将智能终端的所有需要处理的任务平均分配给MEC，可以看出使用Edge算法在GPU使用率较高的同时Edge算法效率较低，Edge算法的能耗较高。使用Actor-Critic、DQN、DDQN算法进行任务卸载时，功耗比Edge算法更低，并且GPU的使用率为中等水平。相较于其他算法，SA--DDQN算法具有在GPU使用率更低的情况下，仍然能保持较高的效率以及更少的功耗。

图2展示了当我们使用不同深度强化学习的折扣率对本发明实施例所提出的SA--DDQN任务卸载算法奖励值的影响。我们考虑了各种可能发生的情况，选择了不同折扣率对奖励的影响的实验。我们将折扣率表示为在执行动作的某时刻之后，时间越靠后的行为对当前行为所产生的奖励更多还是时间更近的行为所产生的奖励更多。根据实验结果我们将本发明实施例所提出的算法的折扣率定义为0.9。

图3展示了我们使用不同深度强化学习的学习率对本发明实施例所提出的SA--DDQN任务卸载算法奖励值的影响。学习率过高时，奖励的收敛能更快得达到最优情况，但是处于最优情况时，将会在最优值处产生波动。学习率过低时，奖励迭代得次数越多并且效率越低，奖励值需要更多的时间才能达到目标。

图4展示了MEC中车辆数量对任务卸载算法延迟的影响，在车联网的移动边缘计算环境中，车辆数目较多时，计算任务也在加重，本发明实施例的SA-DDQN算法考虑到了V2I以及V2V的综合任务分担以及具有空闲资源的Vehicles对Vehicles的任务分担，并解决了其它算法无法在大道全局最优解时进行卸载。

图5展示了边缘服务器计算能力对任务卸载算法时延的影响，在TV_i所处的边缘网络中边缘服务器的计算能力对任务卸载的延迟有着重要的影响。在与其他方法对比时，发现SA-DDQN的系统延迟均为最优。

图6展示了在不同网络传输速率下各个任务卸载算法时延的影响，当网络传输速率升高时，任务卸载的速率也随之增加，与其它算法进行比较，本发明实施例的算法具有更高的性能，可以更好的适应不同的网络环境。

图7展示了不同任务数据量对算法能耗的影响，随着网络中的数据量上升，执行任务卸载算法时所产生的能耗也逐渐升高，相比于其它算法，本发明实施例的算法具有更小的能耗开销。

实施例2

本发明实施例2提供一种对应上述实施例1的终端设备，终端设备可以是用于客户端的处理设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行上述实施例的方法。

本实施例的终端设备包括存储器、处理器及存储在存储器上的计算机程序；处理器执行存储器上的计算机程序，以实现上述实施例1方法的步骤。

在一些实现中，存储器可以是高速随机存取存储器(RAM：Random AccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

在另一些实现中，处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器，在此不做限定。

实施例3

本发明实施例3提供了一种对应上述实施例1的计算机可读存储介质，其上存储有计算机程序/指令。计算机程序/指令被处理器执行时，实现上述实施例1方法的步骤。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

参考文献

[1]Yu Q,Ren J,Fu Y,et al.Cybertwin:An Origin of Next GenerationNetwork Architecture[J].IEEE Wireless Communications,2019,26(6):111-117.

[2]YIYANG PEI,SHISHENG HU,FENG ZHONG,et al.Blockchain-enabled DynamicSpectrum Access:Cooperative Spectrum Sensing,Access and Mining[C].//2019IEEEGlobal Communications Conference:GLOBECOM 2019,Waikoloa,Hawaii,USA,9-13December 2019,[v.2].:Institute of Electrical and Electronics Engineers,1:753-758.

[3]Kotobi,Khashayar,and Sven G.Bilen."Secure blockchains for dynamicspectrum access:A decentralized database in moving cognitive radio networksenhances security and user access."ieee vehicular technology magazine 13.1(2018):32-39.

[4]Weiss,Martin BH,et al."On the application of blockchains tospectrum management."IEEE Transactions on Cognitive Communications andNetworking 5.2(2019):193-205.

[5]Qiu Jing,Zhou Zheng."Distributed dynamic spectrum sharing incognitive radio networks."Journal of Beijing University of Posts andtelecommunications,2009,32(01):69-72。

Claims

1.一种车联网任务卸载方法，其特征在于，包括以下步骤：

S3、选取两个参数不同的神经网络，该两个参数不同的神经网络分别为主网络和目标网络；若所述新的解Y小于旧解，则将所述新的解Y作为当前的解，从构建的动作集中随机选取动作a作为时间t的任务卸载动作a_t；若所述新的解Y大于旧解，则时间t的任务卸载动作通过主网络和当前时间t的状态s_t获得预测的动作集合；Q(s_t,a|θ)表示主网络参数为θ，状态s_t下动作为a时的输出值，即Q值；A表示动作空间；a_i为从A中随机选取的第i个动作；通过主网络和当前时间t的状态s_t获得预测的动作集合的具体实现过程包括：将当前状态s_t的下一状态s_t+1作为目标网络的输入，获得目标网络在下一状态为s_t+1、主网络Q值最大时的动作对应的Q值/>计算目标网络的输出；将主网络的输出Q值、目标网络的输出作为损失函数的输入，计算所述损失函数的梯度，利用所述梯度调整主网络的参数，同时对目标网络的参数进行软更新，软更新结束后，得到的目标网络即为当前任务卸载模型，利用所述当前任务卸载模型获取预测的动作集合；

2.根据权利要求1所述的车联网任务卸载方法，其特征在于，还包括：

3.根据权利要求2所述的车联网任务卸载方法，其特征在于，还包括：

S7、任务卸载后，获得相应的奖励r_t。

4.根据权利要求3所述的车联网任务卸载方法，其特征在于，还包括：

S9、利用经验收集器中的值计算主网络Q值的估计值θ_t为时间t主网络的参数值；

5.一种终端设备，其特征在于，包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1～4任一项所述方法的步骤。

6.根据权利要求5所述的终端设备，其特征在于，所述多个处理器包括：

本地服务器，用于在本地资源充足时进行任务卸载；

中心云服务器，用于在本地资源不足时进行任务卸载。

7.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～4任一项所述方法的步骤。