CN113504987B

CN113504987B - 基于迁移学习的移动边缘计算任务卸载方法及装置

Info

Publication number: CN113504987B
Application number: CN202110734175.5A
Authority: CN
Inventors: 范立生; 周发升; 谌伦源; 黄华锟; 谭伟强
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-08-18
Anticipated expiration: 2041-06-30
Also published as: CN113504987A

Abstract

本发明公开了基于迁移学习的移动边缘计算任务卸载方法及装置，方法包括：将边缘服务器作为代理获取当前移动边缘计算网络的用户信息与环境信息；对所述移动边缘计算网络的任务卸载问题进行建模，得到移动边缘计算系统的优化目标函数；通过马尔科夫决策过程对所述移动边缘计算系统进行表示；通过深度强化学习算法确定所述移动边缘计算系统的最优任务卸载策略；对于动态变换的所述环境信息，通过迁移学习算法对所述移动边缘计算系统的任务卸载问题进行求解，确定最优任务卸载策略。本发明能够实现更好的资源分配，有效降低边缘计算的时延与能耗并能更快得出卸载策略，提高了效率且安全性高，可广泛应用于边缘计算技术领域。

Description

基于迁移学习的移动边缘计算任务卸载方法及装置

技术领域

本发明涉及边缘计算技术领域，尤其是基于迁移学习的移动边缘计算任务卸载方法及装置。

背景技术

随着移动设备和物联网设备的不断增加，计算密集型和时延敏感型的移动应用越来越多，包括交互式游戏、增强现实和认知应用。对于这些应用程序，需要大量的计算和通信资源来支持需求，而本地计算通常受到移动用户的计算能力、通信资源和电池的限制。因此，为了减少延迟和能源消耗，通过应用移动边缘计算，用户将其任务卸载到边缘服务器上进行计算卸载。虽然移动边缘计算网络可以减少延迟和能量消耗，但是存在的安全问题会影响移动边缘计算的性能，特别是在存在干扰的系统环境中，干扰环境会阻塞通信链路，从而降低移动设备和边缘服务器之间的安全数据速率。因此，使得如何提升资源利用率，实现更高效且更安全的移动边缘计算，成为亟待解决的问题。近年来，随着人工智能在边缘计算领域的应用的不断发展，强化学习已成为一种有效的寻求任务卸载策略的方法，但是实际的移动边缘计算系统环境是动态变化的，而现有的强化学习一般假设有一个固定的环境，这就需要强化学习能迅速的寻找到卸载策略。

发明内容

有鉴于此，本发明实施例提供一种高效且安全的，基于迁移学习的移动边缘计算任务卸载方法及装置。

本发明的第一方面提供了一种基于迁移学习的移动边缘计算任务卸载方法，包括：

将边缘服务器作为代理获取当前移动边缘计算网络的用户信息与环境信息；

对所述移动边缘计算网络的任务卸载问题进行建模，得到移动边缘计算系统的优化目标函数；

通过马尔科夫决策过程对所述移动边缘计算系统进行表示；

通过深度强化学习算法确定所述移动边缘计算系统的最优任务卸载策略；

对于动态变换的所述环境信息，通过迁移学习算法对所述移动边缘计算系统的任务卸载问题进行求解，确定最优任务卸载策略。

可选地，所述将边缘服务器作为代理获取当前移动边缘计算网络的用户信息与环境信息，包括：

通过边缘服务器获取移动用户本地执行计算任务算力；

通过边缘服务器获取移动用户本地执行计算任务功率；

通过边缘服务器获取移动用户任务卸载传输功率；

通过边缘服务器获取环境中对边缘服务器发射的干扰功率；

通过边缘服务器获取移动边缘计算网络中无线通信的传输带宽；

通过边缘服务器获取边缘服务器执行计算任务算力。

可选地，所述对所述移动边缘计算网络的任务卸载问题进行建模，得到移动边缘计算系统的优化目标函数，包括：

确定移动边缘计算系统中各个移动用户的本地计算时延以及本地计算能耗；

确定所述移动边缘计算系统中各个移动用户的卸载传输速率、卸载通信时延和卸载通信能耗；

确定任务在边缘服务器的边缘计算时延；

根据所述本地计算时延、所述卸载通信时延以及所述边缘计算时延，确定移动边缘计算中的总时延；

根据所述本地计算能耗和所述卸载通信能耗，计算移动边缘计算中的总能耗；

根据所述总时延和所述总能耗，计算移动边缘计算的任务卸载总代价。

可选地，所述通过马尔科夫决策过程对所述移动边缘计算系统进行表示这一步骤中，

所述马尔科夫决策过程中的状态空间包含卸载到边缘服务器上的任务，所述卸载到边缘服务器上的任务为移动边缘计算系统中各个用户任务与卸载率的乘积；

所述马尔科夫决策过程中的动作空间包含对移动边缘计算系统中各个用户卸载率增加或减少的动作；

所述马尔科夫决策过程中的策略为在一确定状态下执行动作的概率；

对于马尔科夫决策过程中的奖励，当总系统代价降低时，即时奖励为1；在总系统代价不变的情况下，即时奖励为0；当总系统代价增加时，即时奖励为-1。

可选地，所述通过深度强化学习算法确定所述移动边缘计算系统的最优任务卸载策略，包括：

获取移动用户终端所需求的任务，生成对每个移动用户的初始卸载策略；

建立评估神经网络，并对所述评估神经网络的网络参数进行随机初始化；其中，所述评估神经网络是主神经网络，用于得出卸载策略；

建立目标神经网络，并对所述目标神经网络的网络参数进行随机初始化；其中，所述目标神经网络用于生成评估神经网络学习的目标值；

获取深度强化学习的预设学习率、随机探索概率以及奖励折扣；

初始化经验池；其中，所述经验池用于存储训练样本；

初始化当前迭代次数，获取总迭代次数上限；

将当前状态作为所述评估神经网络的输入，得到所述当前状态下的可选动作的Q值列表；

在所述当前状态下以目标概率选取使得Q值最大时的动作；

获取原始样本，并将所述原始样本存储在经验池中；

从所述经验池中抽取少量目标样本，并根据所述目标样本计算深度强化学习的损失函数；

通过梯度下降法对所述评估神经网络的网络参数进行更新；

将迭代后的评估神经网络的网络参数复制给所述目标神经网络。

可选地，所述对于动态变换的所述环境信息，通过迁移学习算法对所述移动边缘计算系统的任务卸载问题进行求解，确定最优任务卸载策略，包括：

获取移动边缘计算网络的环境信息发生变化后的新系统环境信息与相应的系统优化目标函数；

通过深度强化学习求解新系统环境下的移动边缘计算任务卸载的优化问题；

根据迁移学习，采用过去已训练好的评估神经网络的参数和目标神经网络的参数来初始化新新系统环境下评估神经网络的参数和目标神经网络的参数；

通过应用已存储的已训练好的深度强化学习网络参数，学习该深度强化学习网络参数的先验知识，完成对所述移动边缘计算系统的任务卸载问题的求解，确定最优任务卸载策略。

可选地，所述移动边缘计算中的总时延的计算公式为：

所述移动边缘计算中的总能耗的计算公式为：

所述移动边缘计算的任务卸载总代价的计算公式为：

Φ＝λT_total+(1-λ)E_total

其中，T_total代表移动边缘计算中的总时延；代表移动用户本地计算总时延；代表移动用户通信总时延；/>代表边缘服务器计算总时延；E_total代表移动边缘计算中的总能耗；/>代表移动用户本地计算总能耗；/>代表移动用户通信总能耗；Φ代表移动边缘计算的任务卸载总代价；λ代表表示总延迟和总能耗之间重要性的权重参数。

本发明实施例的另一方面还提供了一种基于迁移学习的移动边缘计算任务卸载装置，包括：

第一模块，用于将边缘服务器作为代理获取当前移动边缘计算网络的用户信息与环境信息；

第二模块，用于对所述移动边缘计算网络的任务卸载问题进行建模，得到移动边缘计算系统的优化目标函数；

第三模块，用于通过马尔科夫决策过程对所述移动边缘计算系统进行表示；

第四模块，用于通过深度强化学习算法确定所述移动边缘计算系统的最优任务卸载策略；

第五模块，用于对于动态变换的所述环境信息，通过迁移学习算法对所述移动边缘计算系统的任务卸载问题进行求解，确定最优任务卸载策略。

本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例将边缘服务器作为代理获取当前移动边缘计算网络的用户信息与环境信息；对所述移动边缘计算网络的任务卸载问题进行建模，得到移动边缘计算系统的优化目标函数；通过马尔科夫决策过程对所述移动边缘计算系统进行表示；通过深度强化学习算法确定所述移动边缘计算系统的最优任务卸载策略；对于动态变换的所述环境信息，通过迁移学习算法对所述移动边缘计算系统的任务卸载问题进行求解，确定最优任务卸载策略。本发明能够实现更好的资源分配，有效降低边缘计算的时延与能耗并能更快得出卸载策略，提高了效率且安全性高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的移动边缘计算系统模型的具体实现形式；

图2为本发明提供的基于迁移学习的移动边缘计算的任务卸载方法的系统流程图；

图3为本发明所提出的基于深度强化学习DQN的方法与本发明所提出的基于迁移学习的方法的收敛关系示意图；

图4为本发明所提出的基于迁移学习的方法、全部本地计算以及全部卸载计算的系统总代价关系的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明提供了一种能快速应对环境变化，实现更高效且更安全的移动边缘计算的任务卸载方法。该方法运用最新的人工智能技术并加以创新，首先边缘服务器作为代理获取当前移动边缘计算网络的用户信息与环境信息，得到基于移动边缘计算任务卸载的总代价的优化问题，通过深度强化学习来学习最优的任务卸载策略，最后使用迁移学习加速环境变化时深度强化学习的学习过程。

为达到上述目的，本发明实施的技术方案包括以下四个步骤：

步骤1：边缘服务器作为代理获取当前移动边缘计算网络的用户信息与环境信息，获取所述的移动边缘计算网络的用户信息包括：移动用户本地执行计算任务算力、移动用户本地执行计算任务功率、移动用户任务卸载传输功率；环境信息包括：环境中对边缘服务器发射的干扰功率、移动边缘计算网络中无线通信的传输带宽、边缘服务器执行计算任务算力；

步骤2：对移动边缘计算网络的任务卸载问题进行建模，所述的移动边缘计算网络的任务卸载为移动用户可以选择将本地的计算密集型和时延敏感型任务以一定卸载率通过无线网络传输卸载到附近的边缘服务器上，由计算能力更强的边缘服务器进行边缘计算并将计算结果回传至移动用户，剩余的任务将在移动用户本地计算。系统中共有M个移动用户，移动用户m的本地计算时延与能耗为：

其中，ρ_m∈[0，1]为移动用户m的卸载率，l_m为用户m所需要处理的任务大小，f_m为用户m的本地计算能力，ω为计算一比特任务所需的CPU周期数，为用户m执行本地计算的功率，用户m卸载时的传输速率、时延和能耗可以表示为：

P_tran为任务传输的发射功率，P_j为环境干扰的发射功率，h_m为用户m连接到边缘服务器的无线信道参数，h_j为环境干扰连接到边缘服务器的无线信道参数，σ²为高斯白噪声的方差，W_m为移动用户m所分得的无线信道的带宽。在实际过程中，无线通信的频谱资源是有限的。因此我们使用W_total表示系统总带宽，此时每个用户的带宽满足约束：

接着，任务在边缘服务器的计算时延可以表示为：

F_m为移动用户m卸载到边缘服务器的任务所分得的计算能力，边缘服务器的计算资源是有限的。因此我们使用F_total表示边缘服务器总计算能力，此时为每个用户的任务分配的计算能力满足约束：

根据以上公式，移动用户本地计算总时延移动用户通信总时延/>边缘服务器计算总时延/>可表示为：

移动用户本地计算总能耗移动用户通信总能耗/>可表示为：

由此可得，在这一边缘计算过程中移动边缘计算中的总时延为

在这一边缘计算过程中移动边缘计算中的总能耗为

该移动边缘计算系统优化目标是在移动边缘计算资源限制下最小化移动边缘计算任务卸载的总代价

Φ＝λT_total+(1-λ)E_total

其中，总代价为总时延与总能耗的线性加权和，λ为表示总延迟和总能耗之间重要性的权重参数。于是该移动边缘计算系统优化目标函数可以表示为

s.t.C1：ρ_m∈[0，1]，

步骤3：为解决优化问题，先定义了一马尔科夫决策过程来表示该移动边缘计算系统，所述的马尔科夫决策过程中的状态空间S包含各用户任务与卸载率ρ的乘积，即卸载到边缘服务器上的任务，马尔科夫决策过程中的动作空间A包含对各用户卸载率增加或减少的动作，马尔科夫决策过程中的策略为在一确定状态下执行动作的概率，对于马尔科夫决策过程中的奖励，当总系统代价降低时，即时奖励为1，在总系统代价不变的情况下，即时奖励为0，当总系统代价增加时，即时奖励为-1。然后通过深度强化学习DQN算法解决移动边缘计算任务卸载的优化问题，以得到最优任务卸载策略，具体DQN算法步骤包括：

1)获取移动用户终端所需求的任务，生成对每个移动用户的初始卸载策略；

2)建立评估神经网络，并对其网络参数θ进行随机初始化，所述的评估神经网络是主神经网络，用于得出卸载策略；

3)建立目标神经网络，并对其网络参数进行随机初始化，所述的目标神经网络用于生成评估神经网络学习的目标值；

4)获取DQN预设学习率δ，DQN随机探索概率ε，DQN奖励折扣γ；

5)初始化经验池D，所述的经验池用于存储训练样本；

6)初始化当前迭代次数t，获取总迭代次数上限T；

7)将当前状态s_t作为所述的评估神经网络的输入，可得到前状态s_t下可选动作的Q值列表Q(s_t，a_t；θ)，其中a_t为t时刻所执行动作；

8)在当前状态s_t下以概率ε随机选择或以概率1-ε选择使0值最大的动作a_t，并得到下一状态s_t+1，计算出此次状态变化所带来的奖励r_t；

9)将元组(s_t，a_t，r_t，s_t+1)作为样本存储在所述的经验池D中；

10)从经验池D中随机抽取一小批样本，计算DQN的损失函数为：

其中为目标神经网络在s_t+1状态下执行a_t+1动作所得到的Q值；

11)通过梯度下降法对评估网络的参数θ进行更新；

12)每经过C轮迭代，其中C为预设的迭代数值，将评估神经网络的参数θ复制给目标神经网络参数

步骤4：当移动边缘计算网络的环境信息发生变化时，原有的深度强化学习DQN网络不能做出最优的任务卸载策略，需要使用迁移学习对变化后的环境中的任务卸载问题进行求解，具体的迁移学习步骤为：

1)执行步骤1-2，得到移动边缘计算网络的环境信息发生变化后的新系统环境信息与相应的系统优化目标函数；

2)使用步骤3中深度强化学习DQN求解新系统环境下的移动边缘计算任务卸载的优化问题，特别的在步骤3中2)和3)建立评估神经网络和目标神经网络中不对神经网络参数随机初始化，而是通过迁移学习用过去已训练好的DQN网络的评估神经网络的参数θ′和目标神经网络来初始化评估神经网络的参数θ和目标神经网络参数/>通过应用已存储的已训练好的深度强化学习网络参数，学习其先验知识以加快新网络训练的收敛速度，从而在新环境中应用强化学习时减少学习的时间和代价。

下面结合说明书附图，对本发明的具体实现过程进行详细描述：

图1为实现本发明所提方法而推荐的移动边缘计算系统模型的具体实现形式；图2为基于迁移学习的移动边缘计算的任务卸载方法的系统流程图。

本实施记载了基于深度强化学习的移动边缘计算的任务卸载方法和基于深度强化学习与迁移学习的移动边缘计算的任务卸载方法，在Python仿真环境下，使用计算机仿真本发明所提方法在移动边缘计算系统环境变化情况下的收敛情况与有限学习迭代次数情况下的系统总代价。在仿真实验中，移动用户数设置为5，并随机生成每个移动用户的所需任务和本地执行计算任务算力，给定移动用户本地执行计算任务功率、移动用户任务卸载传输功率、环境中干扰功率、环境中无线通信带宽、边缘服务器执行计算任务算力，该移动边缘计算系统的无线传输经历了瑞利平坦衰落信道，每个用户均分无线通信中的传输带宽资源，每个用户均分边缘服务器中执行计算任务算力。

对于本发明所提及的基于DQN的方法，在训练神经网络时，先对DQN网络进行初始化，具体采用以下步骤：

4)获取DQN预设学习率δ＝0.01，DQN随机探索概率ε＝0.9，DQN奖励折扣γ＝0.9；

5)初始化经验池D，所述的经验池用于存储训练样本，所述的经验池容量为2000个样本；

6)初始化当前迭代次数t，获取总迭代次数上限T；

初始化结束后，对于每次迭代采取以下步骤：

8)在当前状态s_t下以概率ε随机选择或以概率1-ε选择使Q值最大的动作a_t，并得到下一状态s_t+1，计算出此次状态变化所带来的奖励r_t；

10)从经验池D中随机抽取一小批样本，计算DQN的损失函数为：

11)通过梯度下降法对评估网络的参数θ进行更新；

12)每经过C轮迭代，所述的其中C＝100为预设的迭代数值，将评估神经网络的参数θ复制给目标神经网络参数

所述DQN网络经过至多T轮迭代训练或趋于收敛后停止训练。

对于本发明所提出的基于迁移学习的方法，在训练神经网络时，先对DQN网络通过迁移学习进行初始化，具体采用以下步骤：

A.获取移动用户终端所需求的任务，生成对每个移动用户的初始卸载策略；

B.建立评估神经网络，获取已存储的已训练好的DQN网络的评估神经网络的参数θ′，用所述的参数θ′对所述的需建立的神经网络的网络参数θ进行初始化；

C.建立目标神经网络，获取已存储的已训练好的DQN网络的目标神经网络的参数用所述的参数/>对所述的需建立的神经网络的网络参数/>进行初始化；

D.获取DQN预设学习率δ＝0.01，DQN随机探索概率ε＝0.9，DQN奖励折扣γ＝0.9；

E.初始化经验池D，所述的经验池用于存储训练样本，所述的经验池容量为2000个样本；

F.初始化当前迭代次数t，获取总迭代次数上限T；

初始化结束后，对于每次迭代采取以下步骤：

G.将当前状态s_t作为所述的评估神经网络的输入，可得到前状态s_t下可选动作的Q值列表Q(s_t，a_t；θ)，其中a_t为t时刻所执行动作；

H.在当前状态s_t下以概率ε随机选择或以概率1-ε选择使Q值最大的动作a_t，并得到下一状态s_t+1，计算出此次状态变化所带来的奖励r_t；

I.将元组(s_t，a_t，r_t，s_t+1)作为样本存储在所述的经验池D中；

J.从经验池D中随机抽取一小批样本，计算DQN的损失函数为：

K.通过梯度下降法对评估网络的参数θ进行更新；

L.每经过C轮迭代，所述的其中C＝100为预设的迭代数值，将评估神经网络的参数θ复制给目标神经网络参数

所述的网络经过至多T轮迭代训练或趋于收敛后停止训练。

在移动边缘计算系统环境中的传输带宽改变情况下，图3所示为本发明所提出的基于深度强化学习DQN的方法与本发明所提出的基于迁移学习的方法的收敛关系：两方法均随着迭代次数增加收敛到相同的值，基于迁移学习的方法的收敛速度比基于深度强化学习DQN的方法要快得多。对比可以看出转移先验知识可以帮助促进训练过程，通过迁移学习可以加快算法收敛速度。

在有限学习迭代次数T＝2000，移动边缘计算系统环境中的传输带宽改变情况下，图4所示为本发明所提出的基于迁移学习的方法，全部本地计算和全部卸载计算的系统总代价关系：对于不同传输带宽，本发明中所提出的基于迁移学习的方法的系统总代价低于全部本地计算和全部卸载计算的系统总代价。对比可以看出本发明所提出的基于深度强化学习DQN的方法能更高效利用无线频谱资源，有效降低边缘计算的时延与能耗。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于迁移学习的移动边缘计算任务卸载方法，其特征在于，包括：

通过马尔科夫决策过程对所述移动边缘计算系统进行表示；

对于动态变换的所述环境信息，通过迁移学习算法对所述移动边缘计算系统的任务卸载问题进行求解，确定最优任务卸载策略；

所述将边缘服务器作为代理获取当前移动边缘计算网络的用户信息与环境信息，包括：

通过边缘服务器获取移动用户本地执行计算任务算力；

通过边缘服务器获取移动用户本地执行计算任务功率；

通过边缘服务器获取移动用户任务卸载传输功率；

通过边缘服务器获取环境中对边缘服务器发射的干扰功率；

通过边缘服务器获取边缘服务器执行计算任务算力；

所述对所述移动边缘计算网络的任务卸载问题进行建模，得到移动边缘计算系统的优化目标函数，包括：

确定任务在边缘服务器的边缘计算时延；

根据所述总时延和所述总能耗，计算移动边缘计算的任务卸载总代价；所述通过马尔科夫决策过程对所述移动边缘计算系统进行表示这一步骤中，

对于马尔科夫决策过程中的奖励，当总系统代价降低时，即时奖励为1；在总系统代价不变的情况下，即时奖励为0；当总系统代价增加时，即时奖励为-1；

所述通过深度强化学习算法确定所述移动边缘计算系统的最优任务卸载策略，包括：

初始化经验池；其中，所述经验池用于存储训练样本；

初始化当前迭代次数，获取总迭代次数上限；

在所述当前状态下以目标概率选取使得Q值最大时的动作；

获取原始样本，并将所述原始样本存储在经验池中；

通过梯度下降法对所述评估神经网络的网络参数进行更新；

将迭代后的评估神经网络的网络参数复制给所述目标神经网络；

所述对于动态变换的所述环境信息，通过迁移学习算法对所述移动边缘计算系统的任务卸载问题进行求解，确定最优任务卸载策略，包括：

根据迁移学习，采用过去已训练好的评估神经网络的参数和目标神经网络的参数来初始化新系统环境下评估神经网络的参数和目标神经网络的参数；

2.根据权利要求1所述的基于迁移学习的移动边缘计算任务卸载方法，其特征在于，

所述移动边缘计算中的总时延的计算公式为：

所述移动边缘计算中的总能耗的计算公式为：

所述移动边缘计算的任务卸载总代价的计算公式为：

Φ＝λT_toml+(1-λ)E_total

其中，T_total代表移动边缘计算中的总时延；代表移动用户本地计算总时延；/>代表移动用户通信总时延；/>代表边缘服务器计算总时延；E_total代表移动边缘计算中的总能耗；/>代表移动用户本地计算总能耗；/>代表移动用户通信总能耗；Φ代表移动边缘计算的任务卸载总代价；λ代表表示总延迟和总能耗之间重要性的权重参数。

3.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-2中任一项所述的方法。

4.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-2中任一项所述的方法。