CN111031102B

CN111031102B - 一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法

Info

Publication number: CN111031102B
Application number: CN201911166849.5A
Authority: CN
Inventors: 张伟哲; 彭佳滨; 何慧; 方滨兴; 王德胜; 张宾; 景晓军; 李虎; 李志刚; 叶麟; 张玥; 崔丽杰
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2022-04-12
Anticipated expiration: 2039-11-25
Also published as: CN111031102A

Abstract

一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法，属于移动边缘计算系统的应用领域。本发明为了解决现有的移动边缘计算系统中任务迁移方法中确定迁移目标服务器时存实时性差、能耗开销较大的问题。本发明以最小的能耗开销将计算任务从终端设备迁移至选定的边缘服务器，在移动边缘计算系统中，定义移动设备用户的集合A＝{1,2，…，N}，并且每一个用户都有一个待完成的计算任务的集合B＝{1,2，…，M}，这些任务由一个单一的无线基站相连，其中的移动边缘计算服务器为这些移动设备提供计算和缓存服务；所述方法的实现包括通信模型、计算模型、任务缓存模型以及任务迁移模型的构建。本发明有效减少在整个移动边缘计算系统中所有用户所需的总的时间和能耗开销。

Description

一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法

技术领域

本发明涉及移动边缘计算系统中可缓存的任务迁移方法，属于移动边缘计算系统的应用领域。

背景技术

移动边缘计算系统可以通过将计算任务迁移到边缘服务器来解决移动设备的资源限制问题。大规模的多媒体业务对移动蜂窝网络的需求越来越大，对网络容量和回程链路提出了巨大的挑战。为了解决这一问题并尽可能减少通信时延，移动边缘计算系统中将资源和相应的服务转移到距离移动设备最近的边缘节点的计算迁移技术得到广泛应用，同时，使用高效缓存和传输技术可以进一步解决大规模多媒体服务中数据传输在所带来的时延问题。计算迁移作为移动边缘计算上的重要研究，可以解决很多问题，如降低能耗，合理分配无线及计算资源，降低成本，满足移动设备用户的延迟需求等。缓存和传输技术可以作为计算迁移技术的一个补充，能够应用在内容和计算任务两个方面，对计算任务进行缓存主要是将应用程序以及相关数据缓存在边缘服务器。移动边缘计算系统中计算迁移及任务缓存联合问题致力于减少整个移动边缘计算系统中实现计算迁移过程中的时间和能耗开销。传统的移动边缘计算系统中迁移问题的研究主要是考虑对内容进行缓存来实现计算迁移。

文献号为CN109600419A的现有技术公开了一种移动边缘计算环境下支持车联网应用的计算迁移方法，首先获取车辆网中车辆的计算任务的计算资源和缓存空间要求；然后获取与发送计算任务的车辆在同一路段覆盖范围中的边缘计算设备的资源使用情况；其次，根据计算任务对于计算资源和缓存空间的要求以及边缘计算设备的资源使用情况，采用贪心算法检索，寻找边缘计算设备，得到相应计算迁移策略；接着分别计算各个计算迁移策略的时延；最后选择时延最优的计算迁移策略为最终的计算迁移方法。该现有技术采用贪心策略对目标服务器进行选择，造成整个迁移过程时间开销过长，影响整个系统处理任务的实时性。

发明内容

本发明为了解决现有的移动边缘计算系统中任务迁移方法中确定迁移目标服务器时存实时性差、能耗开销较大的问题，进而提供一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法。

本发明解决上述技术问题所采用的技术方案为：

一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法，将部分计算任务从终端设备迁移至选定的边缘服务器来远程执行并对处理结果进行缓存，来实现以最小的能耗来完成整个系统中的计算任务，

在移动边缘计算系统中，定义移动设备用户的集合A＝{1,2，…，N}，并且每一个用户都有一个待完成的计算任务的集合Task＝{1,2，…，M}，这些任务由一个单一的无线基站相连，其中的移动边缘计算服务器为这些移动设备提供计算和缓存服务；所述方法的实现包括通信模型、计算模型、任务缓存模型以及任务迁移模型的构建；

步骤一、通信模型的构建

在通信模型中，在移动边缘计算系统中移动设备用户i(i∈A)上的计算任务j(j∈集合Task)是否需要进行迁移由x_i,j∈{0,1}来决定，

其中，当x_i,j＝0时，该任务将在本地被执行；当x_i,j＝1时，该任务将被迁移到边缘服务器来远程执行；定义集合X＝{x_1,1,x_1,2,…,x_N,M}来记录N个移动设备用户上所有任务的迁移决策；

在移动边缘计算系统中多用户之间通过正交频分多址的方式进行交互，对于每个移动设备用户i来说，其上行数据传输速率r_i为：

其中，B代表系统的带宽，p_i代表移动设备i的传输功率，ω₀代表噪声功率，g₀代表信道增益；

步骤二、计算模型的构建

在计算模型中，每一个移动设备用户i上的计算任务请求可以用元组{b_i,j,c_i,j,τ_i,j}来表示；其中，b_i,j代表任务待迁移的数据，c_i,j代表CPU周期数，τ_i,j代表完成此任务的截止时间；对于移动设备i上的计算任务j，若其在本地执行，时间开销

和能耗开销

可分别表示为：

其中，f_i ^l代表移动设备i的计算能力，即CPU频率；v_i是一个参数，代表每个CPU周期所产生的能耗；

对于在边缘服务器上远程执行的计算任务，整个过程中的开销可分为计算任务的传输、在边缘服务器上计算任务的执行以及返回执行结果三部分的开销；由于返回执行结果的过程中数据传输量比传输计算任务时的数据传输量小很多，并且从服务器的下行数据传输速率要比上行数据传输速率快的多，所以忽略返回结果时产生的时间开销和能耗开销；因此，对于移动设备i上的计算任务j，若其在边缘服务器上远程执行，时间开销

和能耗开销

可分别表示为：

其中，f_i ^e代表与移动设备i相关联的边缘服务器的计算能力；

步骤三、任务缓存模型的构建

对于任务缓存模型，移动边缘计算服务器主要缓存已完成任务的应用程序及其相关的数据，定义边缘服务器的缓存大小为F_s，计算能力为F_c；

缓存计算任务的过程：首先，从移动边缘计算服务器的角度来看，首先收集每个任务的计算资源需求量、数据量的大小以及请求的数量，然后由边缘服务器来决定缓存的策略来使移动设备的时间开销和能耗开销最小；其次，从移动设备的角度来看，每一个移动设备都会请求将计算任务迁移到边缘服务器上；定义移动设备i上的任务j是否被缓存到边缘服务器上由y_i,j∈{0,1}决定；如果y_i,j＝0,则这个任务还未被缓存需要将应用程序和相关数据迁移到边缘服务器上；如果y_i,j＝1,则已经缓存，这个任务将直接被执行并将结果返回给用户；因此，任务缓存的方法能够有效的减少时间开销和能耗开销，其时间开销将等于任务在边缘服务器的执行时间

步骤四、任务迁移模型的构建

综合考虑上述的通信模型、计算模型以及任务缓存模型，完成任务j迁移总的时间开销和能耗开销可表示为：

代表在边缘端执行任务所需能耗；

为了使系统中总的能耗最小，目标函数为：

其中，C1主要是限制带宽能力，C2和C3只要是限制CPU资源的上限以及边缘服务器缓存的大小，C4主要是限制任务的完成时间，C5用来保证在本地执行的计算任务不能缓存到边缘服务器上，C6和C7主要是用来说明任务是否被迁移及是否被缓存，其值存储在向量X和Y中；

所述目标函数是一个NP-hard的问题，随着用户数量的增加，这一问题的规模会呈现指数级的增长，采用强化学习的方法来找出向量X和Y的最优解，即找到总开销最小时对应的迁移决策x_i,j和缓存决策y_i,j。

进一步地，所述强化学习方法为Q-learning，具体为：

定义移动边缘计算系统的状态为：

s(t)＝{x_1,1(t),x_1,2(t),…,x_N,M(t),y_1,1(t),y_1,2(t),…,y_N,M(t)}

状态空间由迁移决策X和缓存决策Y两部分组成，所述系统的动作主要是指不同的状态之间的转移，主要是改变状态空间中的第k个标记位的值来实现相邻状态之间的改变，将动作定义为：

a(t)＝{a_k(t)}

定义系统的奖励函数为R(s,a)，是指智能体在时间t时处于状态s，在执行动作a之后的表现优劣，目标函数的最优化问题可被定义为：

V_s(t)＝({x_i,j(t)},{y_i,j(t)})

同时，将在状态s(t)执行动作a(t)后到达状态s(t+1)的奖励函数定义为：

采用Q-Learning算法的关键在于更新存储状态s及相应动作a的Q表，具体的更新函数为：

Q(s′,a′)＝Q(s,a)+α[R(s,a)+γmaxQ(s′,a′)-Q(s,a)]

其中，Q(s,a)为当前状态的Q值，Q(s′,a′)为新状态的Q值，R(s,a)为采取特定动作而产生的奖励值，maxQ(s′,a′)为当前状态对应的最大的奖励值，α和γ代表学习率和衰减因子；状态s＝{x_i,j,y_i,j}包括了迁移决策和缓存决策两方面的因素，因此用基于Q-Learning算法的方法能够得到迁移和缓存决策的最优值。

进一步地，当状态和动作空间是高维连续时计算和更新Q-learning算法中Q表时，在所述强化学习方法中再引入DeepQNetwork算法，

DeepQNetwork算法中，采用神经网络来对Q-Learning中的价值函数来进行近似，具体为：首先，创建一个大小为P的经验池D，然后对于每一个episodek，选取初始状态s^init，对每一个时间戳t，评估网络会选取状态s(t)并根据贪心策略来选取一个动作a(t)来作为输入，其中，a(t)＝argmax_aQ^pre(s(t),a(t)；θ)；之后，(s(t),a(t),r(t),s(t+1))将被存储在经验池D中，同时Q网络将被更新；Q值的预测值和标签分别记为Q^pre和Q^lab，并使用均方误差作为损失函数计算这些值之间的损失，来使损失值最小；最后，更新目标网络的参数θ^′。

本发明具有以下有益技术效果：

在多用户、多任务的移动边缘计算系统中计算迁移与任务缓存联合问题中，在进行计算迁移的同时，对部分应用程序及相关数据进行缓存以防止多次卸载同一任务，这能够在很大程度上减少移动边缘计算系统中用户执行应用程序时定的时间和能耗开销。本发明将计算迁移的过程和任务缓存的过程有效地联系在一起，尽可能减少任务在迁移和缓存过程中的总开销，以提高整个系统的工作效率及实时确定迁移目标服务器。

本发明将多用户、多任务的移动边缘计算系统中的计算迁移与计算任务缓存进行综合考虑，这更能有效的减少在整个移动边缘计算系统中所有用户所需的总的时间和能耗开销，也更接近于实际的移动边缘计算的应用环境。

经验证，在移动边缘计算系统中，在缓存和迁移过程的开销方面，本发明方法中基于采用强化学习Q-Learning和DeepQNetwork的方法得到的任务处理效果与贪心算法几乎一致，但时间开销远远小于需要遍历整个系统中所有边缘服务器的贪心算法，同时总的开销小于全部在本地执行的方法以及不带有缓存机制并全部迁移至边缘服务器来远程执行的方法；移动边缘计算系统中，在任务缓存机制方面，本发明方法中基于采用强化学习Q-Learning和DeepQNetwork的方法得到的任务处理效果优于全部迁移并随机缓存的方法以及随机迁移并随机缓存的方法。因此，本发明的方法能够有效减少移动边缘计算系统中任务迁移过程以及任务缓存过程中的总开销，可以很好地解决多用户多任务系统中任务迁移与任务缓存联合问题。

附图说明

图1为移动边缘计算系统模型架构图；

图2为移动边缘计算系统中DeepQ-Network结构图；

图3为设备数量变化时任务迁移效果图，横坐标为移动设备的数量，纵坐标为执行任务的总开销；LocalExecution代表所有计算任务全部在本地设备执行；FullOffloadingwithoutCaching代表所有计算任务将被在边缘服务器上远程执行，但不存在缓存机制；GreedyApproach代表执行所有的迁移和缓存组合情况来得到最优解的过程；

图4为数据大小变化时任务迁移效果图，横坐标为计算任务中的数据量，纵坐标为执行任务的总开销；

图5服务器计算能力变化时任务迁移效果图，横坐标为边缘服务器的计算能力，纵坐标为执行任务的总开销；FORC代表所有的计算任务都将迁移至边缘服务器上远程执行，并且随机缓存部分任务直到达到边缘服务器的缓存上限；RORC代表所有的迁移和缓存的决策将随机进行，直到达到边缘服务器的缓存上限；

图6服务器缓存能力变化时任务缓存效果图，横坐标为边缘服务器的缓存能力，纵坐标为执行任务的总开销；

图7数据大小变化时任务缓存效果图，横坐标为计算任务中的数据量，纵坐标为执行任务的总开销。

具体实施方式

给合附图1至7对本发明所述的一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法的实现进行如下阐述：

多用户、多任务的移动边缘计算系统中，随着时间的变化，系统中的移动设备用户数量也会出现动态的变化，因此采用深度强化学习的方法来提高学习效率并且据此来找出最优的迁移和缓存策略。本发明采用了基于Q-learning和DeepQNetwork算法的方法来解决此问题并得到最优解。

在研究的移动边缘计算系统中，定义一个移动设备用户的集合A＝{1,2，…，N}，并且每一个用户都有一个待完成的计算任务的集合Task＝{1,2，…，M}，如图1所示，这些任务由一个单一的无线基站相连，其中的移动边缘计算服务器为这些移动设备提供计算和缓存服务。对整个系统的建模，可以分为通信模型、计算模型以及任务缓存三部分。

在通信模型中，系统中移动设备用户i上的计算任务j是否需要进行迁移由x_i,j∈{0,1}来决定。其中，当x_i,j＝0时，该任务将在本地被执行；当x_i,j＝1时，该任务将被迁移到边缘服务器来远程执行。因此，我们定义集合X＝{x_1,1,x_1,2,…,x_N,M}来记录N个移动设备用户上所有任务的迁移决策。正交频分多址被认为是同一小区内多用户传输的一种多址方式，在这种方式下，上行传输的胞内干扰得到了很好的缓解，因此，对于每个移动设备用户i来说，其上行数据传输速率r_i为：

其中，B代表系统的带宽，p_i代表移动设备i的传输功率，ω₀代表噪声功率，g₀代表信道增益。

在计算模型中，每一个移动设备用户i上的计算任务请求可以用元组{b_i,j,c_i,j,τ_i,j}来表示。其中，b_i,j代表任务待迁移的数据，c_i,j代表CPU周期数，τ_i,j代表完成此任务的截止时间。对于移动设备i上的计算任务j，若其在本地执行，时间开销

和能耗开销

可分别表示为：

其中，f_i ^l代表移动设备i的计算能力，即CPU频率；v_i是一个参数，代表每个CPU周期所产生的能耗。对于在边缘服务器上远程执行的计算任务，整个过程中的开销可分为计算任务的传输、在边缘服务器上计算任务的执行以及返回执行结果三部分的开销。由于返回执行结果的过程中数据传输量比传输计算任务时的数据传输量小很多，并且从服务器的下行数据传输速率要比上行数据传输速率快的多，所以我们在研究中忽略返回结果时产生的时间开销和能耗开销。因此，对于移动设备i上的计算任务j，若其在边缘服务器上远程执行，时间开销

和能耗开销

可分别表示为：

其中，f_i ^e代表与移动设备i相关联的边缘服务器的计算能力。

对于任务缓存模型，移动边缘计算服务器主要缓存已完成任务的应用程序及其相关的数据。但由于边缘服务器的存储和计算能力的限制，因此每个任务的计算资源需求量、数据量的大小以及请求的数量都是该任务是否能够被缓存的重要因素。我们定义边缘服务器的缓存大小为F_s，计算能力为F_c。

缓存计算任务的过程可以从以下两个角度去分析。首先，从移动边缘计算服务器的角度来看，首先收集每个任务的计算资源需求量、数据量的大小以及请求的数量，然后由边缘服务器来决定缓存的策略来使移动设备的时间开销和能耗开销最小。其次，从移动设备的角度来看，每一个移动设备都会请求将计算任务迁移到边缘服务器上。我们定义移动设备i上的任务j是否被缓存到边缘服务器上由y_i,j∈{0,1}决定。如果y_i,j＝0,则这个任务还未被缓存需要将应用程序和相关数据迁移到边缘服务器上；如果y_i,j＝1,则已经缓存，这个任务将直接被执行并将结果返回给用户。因此，任务缓存的方法能够有效的减少时间开销和能耗开销，其时间开销将等于任务在边缘服务器的执行时间

通过综合考虑上述的通信模型、计算模型以及任务缓存模型，完成任务j的总的时间开销和能耗开销可表示为：

为了使系统中总的能耗最小，即

其中，C1主要是限制带宽能力，C2和C3只要是限制CPU资源的上限以及边缘服务器缓存的大小，C4主要是限制任务的完成时间，C5用来保证在本地执行的计算任务不能缓存到边缘服务器上，C6和C7主要是用来说明任务是否被迁移及是否被缓存，其值存储在向量X和Y中。目标函数并不是一个凸规划并且这个问题可以看成是一个NP-hard的问题。而且，随着用户数量的增加，这一问题的规模会呈现指数级的增长，因此，我们采用强化学习的方法来找出向量X和Y的最优解，即找到总开销最小时对应的迁移决策和缓存决策。

采用强化学习的方法来进行研究，关键的元素是确定状态、动作以及奖励函数。状态空间由迁移决策X和缓存决策Y两部分组成，因此我们定义系统的状态为：

s(t)＝{x_1,1(t),x_1,2(t),…,x_N,M(t),

y_1,1(t),y_1,2(t),…,y_N,M(t)}

系统的动作主要是指不用的状态之间的转移，主要是改变状态空间中的第k个标记位的值来实现相邻状态之间的改变。我们将动作定义为：

a(t)＝{a_k(t)

我们定义系统的奖励为R(s,a)，是指智能体在时间t时处于状态s，在执行动作a之后的表现优劣，因此，我们目标函数的最优化问题可以被定义为：

V_s(t)＝({x_i,j(t)},{y_i,j(t)}

同时，我们将在状态s(t)执行动作a(t)后到达状态s(t+1)的奖励函数定义为：

Q(s′,a′)＝Q(s,a)+α[R(s,a)+γmaxQ(s′,a′)-Q(s,a)]

其中，Q(s,a)为当前状态的Q值，Q(s′,a′)为新状态的Q值，R(s,a)为采取特定动作而产生的奖励值，maxQ(s′,a′)为当前状态对应的最大的奖励值，α和γ代表学习率和衰减因子。在我们的专利中，状态s＝{x_i,j,y_i,j}包括了迁移决策和缓存决策两方面的因素，因此可以用算法1所示的基于Q-Learning算法的方法来得到迁移和缓存决策的最优值。

随着状态空间以及行为的不断增加，解决问题的难度呈指数级增长，当状态和动作空间是高维连续时计算和更新Q表的难度也会大幅度增加。在本发明中我们在用DeepQNetwork算法来解决这一问题，在这一算法中，我们使用如图2所示的神经网络来对Q-Learning中的价值函数来进行近似。首先，创建一个大小为P的经验池D，然后对于每一个episodek，选取初始状态s^init，对每一个时间戳t，评估网络会选取状态s(t)并根据贪心策略来选取一个动作a(t)来作为输入，其中，a(t)＝argmax_aQ^pre(s(t),a(t)；θ)。之后，(s(t),a(t),r(t),s(t+1))将被存储在经验池D中，同时Q网络将被更新。Q值的预测值和标签分别记为Q^pre和Q^lab，并使用均方误差作为损失函数计算这些值之间的损失，来使损失值最小。最后，更新目标网络的参数θ′。具体的算法如算法2所示。

针对本发明的技术效果进行如下验证：

我们设计一个移动边缘计算系统，它有5个不同角度和位置的摄像机设备，通过无线信道连接到一个基站，该无线信道具有一定的存储和计算能力。每个摄像设备都需要通过无线信道卸载视频流已进行分析并生成报告。假设卸载数据大小均匀分布在0到10MB之间，每比特的CPU周期数是500，每个设备的CPU计算能力在{0.5,0.6,…,1.0}GHz之间随机分布。我们还假设每个设备的传输功率、通道带宽和背景噪声分别为0.5W、20MHz和-100dBm。边缘服务器的CPU计算能力和存储容量分别设置为100GHz和500MB。

在实验过程中，我们主要比较任务迁移效果以及任务缓存的效果，主要比较的指标是完成对应过程所产生的总的开销，即时间开销与能耗开销之和。

在进行任务迁移效果的实验中，我们分别选取任务全部在本地执行的方法、不带有缓存机制并全部迁移的方法、以及贪心的方法与本发明中的方法进行比较。

随着移动设备数量的变化，完成数据流分析过程所产生的总开销如图3所示。

随着平均数据大小的变化，完成数据流分析过程所产生的总开销如图4所示。

随着边缘服务器计算能力的变化，完成数据流分析过程所产生的总开销如图5所示。

在进行任务缓存效果的实验中，我们分别选取全部迁移并随机缓存的方法以及随机迁移并随机缓存的方法同本发明中的方法进行比较。

随着服务器缓存能力的变化，完成数据流分析过程所产生的总开销如图6所示。

随着平均数据大小的变化，完成数据流分析过程所产生的总开销如图7所示。

从图3-图5所示的实验结果中我们可以发现，在移动边缘计算系统中，在缓存和迁移过程的开销方面，本发明方法中基于采用强化学习Q-Learning和DeepQNetwork的方法得到的任务处理效果与贪心算法几乎一致，但时间开销远远小于需要遍历整个系统中所有边缘服务器的贪心算法，同时总的开销小于全部在本地执行的方法以及不带有缓存机制并全部迁移至边缘服务器来远程执行的方法；图6和图7所示的实验结果中我们可以发现，移动边缘计算系统中，在任务缓存机制方面，本发明方法中基于采用强化学习Q-Learning和DeepQNetwork的方法得到的任务处理效果优于全部迁移并随机缓存的方法以及随机迁移并随机缓存的方法。因此，本发明的方法能够有效减少任务迁移过程以及任务缓存过程中的总开销，可以很好地解决多用户多任务系统中任务迁移与任务缓存联合问题。

Claims

1.一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法，其特征在于，将部分计算任务从终端设备迁移至选定的边缘服务器来远程执行并对处理结果进行缓存，来实现以最小的能耗来完成整个系统中的计算任务，

步骤一、通信模型的构建

在通信模型中，在移动边缘计算系统中移动设备用户i上的计算任务j是否需要进行迁移由x_i,j∈{0,1}来决定，i∈A,j∈Task,

步骤二、计算模型的构建

和能耗开销

可分别表示为：

和能耗开销

可分别表示为：

步骤三、任务缓存模型的构建

步骤四、任务迁移模型的构建

为了使系统中总的能耗最小，目标函数为：

2.根据权利要求1所述的一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法，其特征在于，所述强化学习方法为Q-learning，具体为：

定义移动边缘计算系统的状态为：

s(t)＝{x_1,1(t),x_1,2(t),…,x_N,M(t),y_1,1(t),y_1,2(t),…,y_N,M(y)}

a(t)＝{a_k(t)}

V_s(t)＝({x_i,j(t)},{y_i,j(t)})

Q(s′,a′)＝Q(s,a)+α[R(s,a)+γmaxQ(s′,a′)-Q(s,a)]

其中，Q(s,a)为当前状态的Q值，Q(s′,a′)为新状态的Q值，R(s,a)为采取特定动作而产生的奖励值，maxQ(s′,a′)为当前状态对应的最大的奖励值，a和γ代表学习率和衰减因子；状态s＝{x_i,j,y_i,j}包括了迁移决策和缓存决策两方面的因素，因此用基于Q-Learning算法的方法能够得到迁移和缓存决策的最优值。

3.根据权利要求2所述的一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法，其特征在于，当状态和动作空间是高维连续时计算和更新Q-learning算法中Q表时，在所述强化学习方法中再引入Deep Q Network算法，

Deep Q Network算法中，采用神经网络来对Q-Learning中的价值函数来进行近似，具体为：首先，创建一个大小为P的经验池D，然后对于每一个episode k，选取初始状态s^init，对每一个时间戳t，评估网络会选取状态s(t)并根据贪心策略来选取一个动作a(t)来作为输入，其中，a(t)＝argmax_aQ^pre(s(t),a(t)；θ)；之后，(s(t),a(t),r(t),s(t+1))将被存储在经验池D中，同时Q网络将被更新；Q值的预测值和标签分别记为Q^pre和Q^lab，并使用均方误差作为损失函数计算这些值之间的损失，来使损失值最小；最后，更新目标网络的参数θ′。