CN109976909A

CN109976909A - 边缘计算网络中基于学习的低延时任务调度方法

Info

Publication number: CN109976909A
Application number: CN201910204190.1A
Authority: CN
Inventors: 孙子惠; 邓晓衡; 罗杰
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-07-05
Anticipated expiration: 2039-03-18
Also published as: CN109976909B

Abstract

本发明公开了一种边缘计算网络中基于学习的低延时任务调度方法，针对现有任务调度方法中，启发式算法容易受环境变化影响难以设计，拟使用强化学习技术设计任务调度方案。在资源管理中系统做出的决策通常是高度重复的，因此可以为RL算法产生大量训练数据。其次，RL可以将复杂系统的决策策略建模成深度神经网络。而且通过不断与环境交互学习，可以对特定目标(最低延时)进行优化。

Description

边缘计算网络中基于学习的低延时任务调度方法

技术领域

本发明涉及移动计算技术领域，尤其涉及一种边缘计算网络中基于学习的低延时任务调度方法。

背景技术

近年来随着信息技术的发展，移动智能设备呈爆炸式增长的趋势，同时也刺激了许多新型应用的出现，如虚拟现实、增强现实、移动交互式游戏等等。而用户对于这些交互应用/服务的延迟非常敏感。边缘计算是一种新型的分布式计算架构，旨在将计算的应用、数据和服务的控制从互联网的某些中心节点(“核心”)到转移到另一逻辑极端(“边缘”)，邻近移动智能设备以及终端用户。将移动智能设备的任务卸载至网络的边缘节点可以有效解决时延问题，而一个在边缘计算网络中的合理任务调度方案能够为用户提供低延时服务。

在边缘服务器上可以根据用户需要部署相应的服务，对卸载至边缘服务器的任务进行资源的合理分配。资源管理问题的大多数现有解决方案都是使用设计的启发式算法解决的，典型的设计流程是：(1)简化问题模型提出启发式算法；(2)测试和调整启发式算法以便在实践中获得良好性能。如果问题的某些方面(如负载)发生变化，则不得不重复这些过程。因此我们设计了一种学习管理资源的任务调度策略，为用户提供低延时服务。

设计学习驱动的低延时任务调度方案有两个关键问题，第一个问题是由于用户非常重视任务的处理速度，对于实时视频分析任务，超过数十毫秒的时延将对破坏用户体验并且导致负面的反馈。第二个问题是机器学习是否为资源管理提供一个可行的替代人为设计启发式的方案，在直接从与环境交互的经验中学习管理资源。在多用户的边缘计算场景下，本设计重点关注为用户提供低延时服务。考虑边缘服务器的资源分配，设计了一种基于学习的低延时任务调度方案。

发明内容

本发明所解决的技术问题在于能够克服现有算法的不足，提出一种边缘网络下基于学习的低延时任务调度策略。针对现有任务调度方法中，启发式算法容易受环境变化影响难以设计，拟使用强化学习技术设计任务调度方案。在资源管理中系统做出的决策通常是高度重复的，因此可以为RL算法产生大量训练数据。其次，RL可以将复杂系统的决策策略建模成深度神经网络。而且通过不断与环境交互学习，可以对特定目标(最低延时)进行优化。

本发明旨在至少解决现有技术中存在的技术问题。为此，本发明公开了一种边缘计算网络中基于学习的低延时任务调度方法，多个用户所持有的移动智能终端通过无线接入点与边缘计算网络中的多资源服务器(EC server)集群连接，其特征在于，每次只保留N个任务到达的系统状态，而N个之外的任务信息放在积压部分中只对任务数量计数，在每个时间步，对N个任务进行调度，允许智能体Agent在每个时间步执行多个动作a，在每个时间步t，时间被冻结，直到选择无效的动作或者是尝试调度的不合适的任务，时间才会进行，集群图像移动一步，每进行一个时间步，就相当于Agent进行一次有效的决策，然后Agent观察状态转换，也就是任务被调度到集群图像中的适当位置；在每个时间步设置奖励为其中，J是当前系统中的任务集(被调度或是等待服务)，T_i是任务i的理想完成时间，Agent在时间步中没有得到任何中间决策的奖励。设定折扣因子为1，随着时间的累积奖励与负的总和任务减速相符合，累计奖励最大就是最小化平均任务减速取负，将状态到动作的映射表示为一个神经网络，将图像的集合作为输入，输出所有可能动作的值函数，在一个情节化episode的环境中训练策略网络，在每个episode中固定数量的任务到达，根据策略进行任务调度，当所有任务完成调度时，情节终止。

更进一步地，所述将任务调度问题被转化为一个学习问题，进一步包括：形式化强化学习将其表示为马尔可夫决策过程(MDP)，假设Agent位于一个环境中，该环境由某个状态s表示，Agent可以在环境中执行某些操作，然后接收奖励，并将环境转换为新的状态，转换的经验表示为s,a,r,s′，分别为状态、动作、奖励和下一状态，这些状态集、动作集以及转换规则组成了一个MDP；这个过程的一个episode形成一个有限序列的状态,行为和奖励：

{s₀,a₀,r₀,s₁,a₁,r₁,…,s_t,a_t,r_t,…,s_n-1,a_n-1,r_n-1,}

其中，s_t为当前状态，a_t为当前行为，r_t为执行行为后的奖励，s_t+1为下一状态；利用强化学习值迭代的算法q-learning，将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取动作获得较大的收益，其更新公式为:

其中，s和a时当前状态和当前状态下执行的动作，r为执行a后获得的奖励，s′为下一个状态，a′为下一个状态要执行的动作，在更新的过程中，引入学习速率α，控制先前的Q值和新的Q值之间有多少差异被保留，参数γ则用来对奖励进行折扣，当γ接近0时，关注短期利益，当γ接近1时，我关注长期利益。Q(s′,a′)是下一个状态s′中的最大Q值，r+γmax_a′Q(s′,a′)是Q(s,a)的期望值。Q^*(s,a)表示在状态s时执行动作a在未来获得的奖励折扣，一旦有了Q^*(s,a)，就可以选择未来获得折扣奖励最大的动作a。

更进一步地，状态到动作的映射表示为一个神经网络，把Q-table更新转化为一函数拟合问题，通过拟合一个函数function来代替Q-table产生Q值，使得相近的状态得到相近的输出动作。利用深度神经网络对复杂特征的提取，用一个深度卷积神经网络表示这个Q值函数，参数为θ，通过更新参数θ使Q函数逼近最优Q值：

Q(s,a；θ)≈Q′(s,a)

其中，θ是网络参数。

更进一步地，训练Q网络，确定网络参数θ。首先通过Q-Learning使用reward来构造标签TargetQ，在Q值中使用均方差mean-square error来定义目标函数objectivefunction，也就是Q网络训练的损失函数为：

L(θ)＝E[(TargetQ-Q(s,a；θ))²

其中，θ是网络参数，目标值为：

其中s′,a′即下一状态和动作，使用Q-Learning要更新的Q值作为目标值。

求损失函数L(θ)关于参数θ的梯度，使用梯度下降法来更新参数θ，从而得到最优Q值，梯度下降法为：

为了解决相关性及非静态分布问题，利用了经验回放训练强化学习模型把每个时间步Agent与环境交互得到的转移样本(s_t,a_t,r_t,s_t+1)储存到回放记忆单元，要训练时就随机拿出一些数据(minibatch)来训练；

为了降低了当前值和目标值的相关性，提高算法稳定性，独立设置目标网络来单独处理时间差分算法中的TD误差，使用一个卷积神经网络CNN(MainNet)产生当前Q值，使用另外一个卷积神经网络CNN(TargetNet)产生Target Q值，具体地，Q(s,a；θ)表示当前网络MainNet的输出，用来评估当前状态动作对的值函数；Q(s,a；θ^-)表示TargetNet的输出，代入上面求Target Q值的公式中得到目标值，根据所述损失函数更新MainNet的参数，每经过C轮迭代，将MainNet的参数复制给Target Net。此时值函数的更新变为：

其中Q(s,a；θ)表示当前网络MainNet的输出，Q(s,a；θ^-)表示TargetNet的输出。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的边缘计算任务调度场景图；

图2是本发明的一个包含三个资源和三个将调度的任务状态表示的示例图；

图3是本发明的强化学习策略图。

具体实施方式

实施例一

本实施例公开了一种边缘计算网络中基于学习的低延时任务调度方法，多个用户所持有的移动智能终端通过无线接入点与边缘计算网络中的多资源服务器(EC server)集群连接，每次只保留N个任务到达的系统状态，而N个之外的任务信息放在积压部分中只对任务数量计数，在每个时间步，对N个任务进行调度，允许智能体Agent在每个时间步执行多个动作a，在每个时间步t，时间被冻结，直到选择无效的动作或者是尝试调度的不合适的任务，时间才会进行，集群图像移动一步，每进行一个时间步，就相当于Agent进行一次有效的决策，然后Agent观察状态转换，也就是任务被调度到集群图像中的适当位置；在每个时间步设置奖励为其中，J是当前系统中的任务集(被调度或是等待服务)，T_i是任务i的理想完成时间，Agent在时间步中没有得到任何中间决策的奖励。设定折扣因子为1，随着时间的累积奖励与负的总和任务减速相符合，累计奖励最大就是最小化平均任务减速取负，将状态到动作的映射表示为一个神经网络，将图像的集合作为输入，输出所有可能动作的值函数，在一个情节化episode的环境中训练策略网络，在每个episode中固定数量的任务到达，根据策略进行任务调度，当所有任务完成调度时，情节终止。

{s₀,a₀,r₀,s₁,a₁,r₁,…,s_t,a_t,r_t,…,s_n-1,a_n-1,r_n-1,}

Q(s,a；θ)≈Q′(s,a)

其中，θ是网络参数。

L(θ)＝E[(TargetQ-Q(s,a；θ))²

其中，θ是网络参数，目标值为：

实施例二

如图1所示。多个用户所持有的移动智能终端通过无线接入点与边缘计算网络中的服务器(EC server)集群连接，EC服务器集群是一个多资源集群。任务以在线方式动态到达边缘服务器集群，一旦任务被调度就不能被抢占。我们假定一个具有3种资源类型的边缘服务器集群(CPU，内存，I/O)，移动智能终端产生的任务以离散的时间步以在线方式到达边缘网络的服务器集群，在每个时间步选择一个或多个任务进行调度。假设每个任务的资源需求在到达时是已知的。对于一个移动智能终端i，它产生的任务表示为A_i＝(d_i,c_i,r_i)，其中d_i,表示任务A_i的数据大小，c_i表示完成任务A_i所需要的CPU周期总数，r_i表示任务A_i所需要的IO资源

本文希望使得任务调度后的处理延时最低，使用平均任务减速作为系统目标，对于每个任务A_i，减速由S_i＝C_i/T_i给出，其中C_i是任务被调度后的实际完成的时间(任务到达后的等待时间和任务执行时间)，T_i是任务的理想完成时间。这里S_i>1。

目标函数为最小化平均任务减速：

min∑_i∈JS_i 式(1-1)

任务被卸载至边缘计算网络任务调度执行完之后，再将结果返回到移动智能终端，由于返回的计算结果数据量很小。为了方便分析，传输的时间在本文中忽略不计。

RL构思

状态空间：系统的状态是当前被分配的边缘服务器集群资源和等待被调度的任务的资源概况，用不同的图像表示。如图2所示，其中集群图像在左侧，每种资源单独表示，可以显示每个资源分配给正在进行调度的任务，从当前时间步开始到未来的T时间步。图像中不同样式代表不同任务。(例如图中某一任务使用两个CPU单元，一个内存单元，一个I/O单元用于接下来的三个时间步)。作业槽图像表示等待被调度的任务的资源需求。(例如图2，任务槽1中任务持续时间为两个时间步，需要两个CPU单元，一个内存单元和三个I/O单元)。为了有一个固定的状态表示图，以便作为神经网络的输入。因此，每次只保留N个任务到达的图像，而N个之外的任务信息放在积压部分中，只对任务数量计数。

动作空间：在每个时间步，我们对N个任务进行调度，那么动作空间将是N的子集大小为2^N，这样学习非常具有挑战性。因此允许智能体Agent在每个时间步执行多个动作。动作空间由给出，其中a＝i代表调度第i槽中的任务，是一个无效的动作表示agent在当前时间步中不希望再调度任务。在每个时间步，时间被冻结，直到选择无效的动作或者是尝试调度的不合适的任务，例如图2中在第3槽的任务。时间就会进行，集群图像向上移动一步。每进行一个时间步，就相当于Agent进行一次有效的决策，然后Agent观察状态转换，也就是任务被调度到集群图像中的适当位置。

奖励：奖励信号能引导Agent为我们的目标找到良好的解决方案，本文目标是最小化平均任务减速。因此我们在每个时间步设置奖励为J是当前系统中的任务集(被调度或是等待服务)。Agent在时间步中没有得到任何中间决策的奖励。设定折扣因子为1，随着时间的累积奖励与负的总和任务减速相符合，因此累计奖励最大就是最小化平均任务减速取负。

边缘计算网络中低延时的任务调度问题被转化为一个学习问题,EC服务器集群Agent是学习者，同时也是决策者。学习者通过环境进行交互(根据自身资源进行任务调度)来实现目标(低延时)。在具体实施方案中将针对学习问题利用深度学习、强化学习技术解决问题。

根据发明内容里面建立的问题模型，找到合适的任务调度策略，当Agent不是随机地产生可能动作，而是经过对过去经历的思考得来时，这样的动作称之为策略，也就是状态到动作的映射。我们将该策略表示为一个神经网络。如图3所示，将处理后图像的集合作为输入，输出所有可能动作的函数值。我们在一个情节化episode的环境中培训政策网络。在每个episode中固定数量的任务到达，根据策略进行任务调度，当所有任务完成调度时，情节终止。

形式化强化学习将其表示为马尔可夫决策过程(MDP)，假设Agent位于一个环境中，该环境由某个状态s表示，Agent可以在环境中执行某些操作，然后接收奖励，并将环境转换为新的状态，转换的经验表示为s,a,r,s′，分别为状态、动作、奖励和下一状态，这些状态集、动作集以及转换规则组成了一个MDP；这个过程的一个episode形成一个有限序列的状态,行为和奖励：

{s₀,a₀,r₀,s₁,a₁,r₁,…,s_t,a_t,r_t,…,s_n-1,a_n-1,r_n-1,} 式(1-2)

其中，s_t为当前状态，a_t为当前行为，r_t为执行行为后的奖励，s_t+1为下一状态。

利用强化学习值迭代的算法q-learning，将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取动作获得较大的收益，其更新公式为:

Q^*(s,a)＝Q(s,a)+α(r+γmax_a′Q(s′,a′)-Q(s,a)) 式(1-3)

这里s和a时当前状态和当前状态下执行的动作，r为执行a后获得的奖励，s′为下一个状态，a′为下一个状态要执行的动作，r+γmax_a′Q(s′,a′)是(s,a)的期望值。Q^*(s,a)表示在状态s时执行动作a在未来获得的奖励折扣，一旦有了Q^*(s,a)，就可以选择未来获得折扣奖励最大的动作a。在更新的过程中，我们引入了学习速率α，控制先前的Q值和新的Q值之间有多少差异被保留，参数γ则用来对奖励进行折扣，当γ接近0时，我们比较关注短期利益，当γ接近1时，我们比较关注长期利益。

这种使用Q-Table的方法比较适合解决状态空间比较小的问题，他的本质其实就是比较聪明的搜索，计算每一个状态下进行每一个动作可以获得奖励(或者一个用来估计奖励的数值)。，而当状态和动作空间是高维时，就非常困难了。这时应该用深度学习来学习下一步应该做的动作,神经网络本身通过将高维数据状态映射到低维数据上，最后输出预测的动作和每个动作产生的影响。把Q-Table的更新问题变成一个函数拟合问题，通过拟合一个函数function来代替Q-table产生Q值，使得相近的状态得到相近的输出动作。利用深度神经网络对复杂特征的提取，用一个深度卷积神经网络表示这个Q值函数，参数为θ，如下式，通过更新参数θ使Q函数逼近最优Q值：

Q(s,a；θ)≈Q′(s,a) 式(1-4)

DQN(DeepQ-Learning Network)将卷积神经网络(CNN)和Q-Learning结合起来，CNN的输入是原始图像数据(作为状态State)，输出则是每个动作Action对应的价值评估ValueFunction(Q值)。这个神经网络具有20个神经元的完全连接的隐藏层。对图像进行预处理转换成256级灰度的图像，每个输入使用的“图像”长20t。

首先训练样本通过贪心(Epsilon Greedy)策略去生成就，通过Q-Learning使用reward来构造标签TargetQ，在Q值中使用均方差mean-square error来定义目标函数objective function，也就是Q网络训练的损失函数为：

L(θ)＝E[(TargetQ-Q(s,a；θ))²] 式(1-5)

其中θ是网络参数，目标Q为：

TargetQ＝r+γmax_a′Q(s′,a′；θ) 式(1-6)

损失函数是基于式(1-3)的第二项确定的，使当前的Q值逼近Target Q值。接下来，训练Q

网络，求损失函数L(θ)关于参数θ的梯度，使用梯度下降法来更新参数θ，从而得到最优Q值，

梯度下降法为：

利用了经验回放训练强化学习模型解决相关性及非静态分布问题。把每个时间步Agent与环境交互得到的转移样本(s_t,a_t,r_t,s_t+1)储存到回放记忆单元，要训练时就随机拿出一些数据(minibatch)来训练；

最后，独立设置目标网络来单独处理时间差分算法中的TD误差，使用一个卷积神经网络CNN(MainNet)产生当前Q值，使用另外一个卷积神经网络CNN(TargetNet)产生Target Q值，具体地，Q(s,a；θ)表示当前网络MainNet的输出，用来评估当前状态动作对的值函数；Q(s,a；θ^-)表示TargetNet的输出，代入上面求Target Q值的公式中得到目标值，根据所述损失函数更新MainNet的参数，每经过C轮迭代，将MainNet的参数复制给TargetNet。此时值函数的更新变为：

引入TargetNet后，在一段时间里使目标Q值保持不变的，一定程度降低了当前Q值和目标Q值的相关性，提高了算法稳定性。

其中，DQN算法的伪代码如下所示：

关键点在于基于学习的低延时任务调度方案在移动计算中是非常有意义的，用户在向边缘计算网络请求服务时希望获得低延时服务，而在边缘计算网络中系统学习自己管理资源，能够从经验中学习资源管理从而做出合适的任务调度决策。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种边缘计算网络中基于学习的低延时任务调度方法，多个用户所持有的移动智能终端通过无线接入点与边缘计算网络中的多资源服务器(EC server)集群连接，其特征在于，每次只保留N个任务到达的系统状态，而N个之外的任务信息放在积压部分中只对任务数量计数，在每个时间步，对N个任务进行调度，允许智能体Agent在每个时间步执行多个动作a，在每个时间步t，时间被冻结，直到选择无效的动作或者是尝试调度的不合适的任务，时间才会进行，集群图像移动一步，每进行一个时间步，就相当于Agent进行一次有效的决策，然后Agent观察状态转换，

也就是任务被调度到集群图像中的适当位置；在每个时间步设置奖励为其中，J是当前系统中的任务集(被调度或是等待服务)，T_i是任务i的理想完成时间，Agent在时间步中没有得到任何中间决策的奖励，设定折扣因子为1，随着时间的累积奖励与负的总和任务减速相符合，累计奖励最大就是最小化平均任务减速取负，将状态到动作的映射表示为一个神经网络，将图像的集合作为输入，输出所有可能动作的值函数，在一个情节化episode的环境中训练策略网络，在每个episode中固定数量的任务到达，根据策略进行任务调度，当所有任务完成调度时，情节终止。

2.如权利要求1所述的一种边缘计算网络中基于学习的低延时任务调度方法，其特征在于，将任务调度问题被转化为一个学习问题，进一步包括：形式化强化学习将其表示为马尔可夫决策过程(MDP)，假设Agent位于一个环境中，该环境由某个状态s表示，Agent可以在环境中执行某些操作，然后接收奖励，并将环境转换为新的状态，转换的经验表示为s，a，r，s′，分别为状态、动作、奖励和下一状态，这些状态集、动作集以及转换规则组成了一个MDP；这个过程的一个episode形成一个有限序列的状态，行为和奖励：

{s₀，a₀，r₀，s₁，a₁，r₁，…，s_t，a_t，r_t，…，s_n-1，a_n-1，r_n-1，}

其中，s_t为当前状态，a_t为当前行为，r_t为执行行为后的奖励，s_t+1为下一状态；利用强化学习值迭代的算法q-learning，将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取动作获得较大的收益，其更新公式为：

其中，s和a时当前状态和当前状态下执行的动作，r为执行a后获得的奖励，s′为下一个状态，a′为下一个状态要执行的动作，在更新的过程中，引入学习速率α，控制先前的Q值和新的Q值之间有多少差异被保留，参数γ则用来对奖励进行折扣，当γ接近0时，关注短期利益，当γ接近1时，开始关注长期利益；Q(s′，a′)是下一个状态s′中的最大Q值，r+γmaxa′Q(s′，a′)是Q(s，a)的期望值；Q*(s，a)表示在状态s时执行动作a在未来获得的奖励折扣，一旦有了Q*(s，a)，就可以选择未来获得折扣奖励最大的动作a。

3.如权利要求2所述的一种边缘计算网络中基于学习的低延时任务调度方法，其特征在于，状态到动作的映射表示为一个神经网络，把Q-table更新转化为一函数拟合问题，通过拟合一个函数function来代替Q-table产生Q值，使得相近的状态得到相近的输出动作；利用深度神经网络对复杂特征的提取，用一个深度卷积神经网络表示这个Q值函数，参数为θ，通过更新参数θ使Q函数逼近最优Q值：

Q(s，a；θ)≈Q′(s，a)

其中，θ是网络参数。

4.如权利要求3所述的一种边缘计算网络中基于学习的低延时任务调度方法，其特征在于，训练Q网络，确定网络参数θ；首先通过Q-Learning使用reward来构造标签TargetQ，在Q值中使用均方差mean-square error来定义目标函数objective function，也就是Q网络训练的损失函数为：

L(θ)＝E[(TargetQ-Q(s，a；θ))²]

其中，θ是网络参数，目标值为：

其中s′，a′即下一状态和动作，使用Q-Learning要更新的Q值作为目标值，

为了解决相关性及非静态分布问题，利用了经验回放训练强化学习模型把每个时间步Agent与环境交互得到的转移样本(s_t，a_t，r_t，s_t+1)储存到回放记忆单元，要训练时就随机拿出一些数据(minibatch)来训练；

为了降低了当前值和目标值的相关性，提高算法稳定性，独立设置目标网络来单独处理时间差分算法中的TD误差，使用一个卷积神经网络CNN(MainNet)产生当前Q值，使用另外一个卷积神经网络CNN(TargetNet)产生Target Q值，具体地，Q(s，a；θ)表示当前网络MainNet的输出，用来评估当前状态动作对的值函数；Q(s，a；θ^-)表示TargetNet的输出，代入上面求Target Q值的公式中得到目标值，根据所述损失函数更新MainNet的参数，每经过C轮迭代，将MainNet的参数复制给Target Net，此时值函数的更新变为：

其中Q(s，a；θ)表示当前网络MainNet的输出，Q(s，a；θ^-)表示TargetNet的输出。