CN111726826B

CN111726826B - 一种基站密集型边缘计算网络中的在线任务卸载方法

Info

Publication number: CN111726826B
Application number: CN202010445667.8A
Authority: CN
Inventors: 刘通; 张亚萌; 李成范; 童维勤
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2024-03-19
Anticipated expiration: 2040-05-25
Also published as: CN111726826A

Abstract

本发明涉及一种基站密集型边缘计算网络中的在线任务卸载方法，基于深度强化学习，通过在线学习方式为智能设备用户在一个基站密集网络覆盖区域下移动时，针对不断产生异构的计算任务制定卸载策略，从而使得计算任务的总时延和设备总消耗最小化。本发明算法包含两个交替的阶段，第一个阶段为卸载决策动作的产生，即用户利用深度神经网络选择出最佳卸载决策、CPU频率以及传输功率，再存储下用户和网络的交互过程作为经验。第二阶段为网络训练部分，利用经验回放技术和一个与在线网络结构相同但参数不同的目标网络来训练在线网络的参数。本发明保证在用户无法获取全局和未来信息和设备能耗受限情况下，计算任务的总完成时延和设备能耗开销最小。

Description

一种基站密集型边缘计算网络中的在线任务卸载方法

技术领域

本发明涉及一种基站密集型边缘计算网络中的在线任务卸载方法，是一种考虑用户在边缘计算网络覆盖的区域移动过程中，使所有产生的计算任务完成时延以及设备能耗最小的方法。考虑到异构计算任务低时延需求、移动设备能耗受限和动态变化的无线网络，需要为移动用户提供合理的卸载策略以及资源规划以保证最小化计算任务的总时延和设备能耗。

背景技术

随着物联网的发展，各种智能移动终端呈爆发式增长，同时通信技术不断更新换代，大量的新型应用出现，其中一些应用有着低时延高消耗的特点，而移动设备的计算资源和能源资源是受限的，由此边缘计算这一在核心网的边缘为移动设备提供计算服务的概念顺势而生。

计算卸载问题是边缘计算中广受重视的研究，一个优质的卸载策略能够提升应用的服务质量和用户体验。如附图1所示，当智能设备用户在一个基站密集型网络覆盖区域下移动时，会不断产生异构的计算任务，用户需要根据当前的网络连接状况、任务的属性以及自身设备的限制去选择一个卸载策略，即在本地以某一CPU频率执行还是以一定的传输功率将任务卸载到一个可连接基站来执行。不同的卸载策略会造成不同的任务完成时延和设备能量损耗，而对于用户来说，一个好的策略应使得总时延和能耗最小。然而制定这样的策略十分困难，首先计算任务具有异构性、随机性，而且无线通信网络环境也是动态变化的，加上用户具有移动性，在不可预知条件下很难采取最优卸载决策；其次，智能设备的能量是受限的，关乎到长期的能量消耗，由此需要合理规划CPU频率和传输功率来节省能耗；最后，当用户进行卸载时，需要根据自己的位置选择基站，不同的选择会带来不同的服务迁移时延，这又成为了制定最优策略的一个难点。因此，如何为用户在无法获取未来信息前提下制定最优的卸载策略是一个复杂的问题。近几年，虽然有大量的研究工作考虑到了计算卸载策略制定的问题，但是它们通常忽视了用户的移动性，而且许多工作是基于系统层面的卸载策略制定，没有以用户为中心制定策略，除此以外，同时考虑优化任务完成时延和设备能耗的策略也很少。

发明内容

本发明的目的是针对已有技术的不足，提供一种基站密集型边缘计算网络中的在线任务卸载方法，为移动智能设备设计了一种基于深度强化学习决策算法，以保证在最小化计算任务的总时延下，同时使得设备的能耗最小。该方法考虑到用户的移动性、计算任务的异构随机性、网络环境的动态性以及设备能耗受限，由此，本发明提出了一种计算卸载决策算法，使得计算任务的总时延和设备能量消耗最小化。

为了达到上述发明目的，本发明采用如下技术方案：

一种基站密集型边缘计算网络中的在线任务卸载方法，其特征在于操作步骤如下：

步骤一，为边缘计算网络进行建模：

一个用户在一个基站密集型边缘计算网络覆盖的区域中移动，该区域中密集地部署了N个基站，所有基站构成集合每一个基站/>都配备一个边缘服务器，因此基站既可为用户提供无线电接入服务也可提供计算资源。不同边缘服务器拥有不同的计算能力，其最大CPU处理频率表示为f_i。基站之间可通过有线电缆或者光纤进行通信。为了更好地表征在线边缘计算系统，将时间离散化为多个等长时间片组成的时间序列，定义为在每个时间片/>下，用户设备会产生一个计算任务ψ^t＝(s^t，c^t)，其中s^t为输入数据大小，c^t为计算该任务所需CPU时钟周期数。在每个时间片下，用户设备只能连接到部分基站/>且连接到不同基站的信道增益/>和用户的位置有关。

步骤二，为计算任务执行模式建模。每个计算任务都可通过两种方式被执行，用o^t∈{0}∪K^t表示t时刻时用户的卸载决策。

(1)本地执行模型：

当o^t＝0时，任务在本地设备执行。用户需从个离散的等级中选择一个CPU频率去处理任务。处理任务计算时延为/>这一过程消耗的能量为/>其中κ为有效转换电容。

(2)边缘执行模型：

当o^t＝i∈K^t时，任务在边缘服务器i执行。用户首先需从个离散等级中选择一个传输功率/>来将任务数据以/>的数据传输率传送至边缘服务器，其中W_i是信道带宽，/>是边缘服务器i的平均干扰噪声，总传输时延为/>传输过程产生的能耗为/>任务到达边缘服务器i后，处理时延为/>除此以外，若用户卸载时的服务器不同于上一次卸载的选择，会造成一定的服务迁移时延，用/>来表示用户连接基站的状态，且任意两基站间切换时延记为σ_i，j，由此切换时延为/>另外在任何执行模型中，每个时间片下消耗的能耗不能超过当前剩余能量/>根据上述系统模型，在时间t下，完成任务ψ^t的总时延可归结为/>能量消耗为/>

在线任务卸载的目标是在考虑到用户的移动性、计算任务的异构随机性、网络环境的动态性以及设备能耗受限情况下，最小化计算任务的总时延和设备能量消耗。用户设备需要为每一个时间片下到达的任务决定是否卸载，如果卸载需要根据当前网络状况决定卸载到哪个基站，并根据卸载决策调整CPU频率和传输功率。综上，边缘计算网络中的在线计算卸载问题可形式化为：

这是具有耦合约束的多目标优化规划问题，两个目标需要进行权衡，即在以某一卸载方式下选择更大的CPU频率或者传输功率来减少时延从而牺牲设备能量。

步骤三，卸载决策建模：

根据上述系统模型，卸载决策问题可建模成马尔可夫决策过程其中/>为状态空间，/>为动作空间，/>为转移概率，/>为奖励函数，γ∈[0，1]为折扣因子。在每个时间片下，状态表示为/>是所有基站的信道增益，/>为决策动作，用户获得的奖励为/>其中ω₁和ω₂是两个目标的权重，x为当设备能源耗尽时的奖励。转移概率为在状态s^t采取动作a^t变化为s^t+1。根据上述马尔科夫决策模型，原问题可转换为策略决策问题，即选择一个最优策略π最大化累计折扣奖励：

步骤四，确定卸载策略：

根据上述模型，设计了基于深度强化学习的在线计算卸载算法，如附图2所示，算法包含两个交替的阶段，即卸载决策动作的产生和网络训练，其详细细节如下：

4-1、卸载决策动作产生：在每个时间片t下，用户获取当前状态s^t输入到一个参数记为θ全连接神经网络中，该网络称为在线网络，包含一个输入层、两层隐藏层、一层输出层，此网络用于输出所有动作的价值，再通过筛选操作得到可选择动作，最后采用∈-贪心策略以∈的概率随机选择一个动作，以1-∈的概率选择具有最大值的动作，选择的动作a^t处理完计算任务得到由环境反馈的奖励r^t和下一个状态s^t+1。这一交互过程会作为一条经验(s^t，a^t，r^t，s^t+1)存放到经验池中。

4-2、网络训练：随机从经验池中的采样一批大小为的经验{(s^j，a^j，r^j，s^j+1)，j∈J}。以一条经验为例，将s^j输入到在线网络中，获得动作a^j的价值Q(s^j，a^j；θ)，再将s^j+1输入到在线网络中并选择一个具有最大价值的动作a^j+1＝argmax_aQ(s^j，a^j；θ)，再利用一个参数为θ_的目标网络，这个网络和在线网络具有相同的结构。接下来依据贝尔曼方程，根据经验中的奖励r^j来获取目标动作价值q^j：

q^j＝r^j+γQ(s^j+1，a^j+1；θ_)

由此，在线网络的参数可更新为：

其中α为学习率。除此以外，目标网络的参数每隔一段时间复制一次在线网络的参数作为自己的网络参数。

本发明的与现有技术相比较，具有如下显而易见的突出实质性特点和显著技术进步：

1.本发明考虑了在基站密集型边缘计算网络中用户移动过程中的计算卸载问题，并将这一问题建模成了马尔可夫决策过程。

2.本发明提出一个基于深度强化学习的制定最优计算卸载策略的算法，使得总的任务计算时延和设备能耗最小化。

3.经大量实验验证，所提算法可在没有未来信息的情况下拥有最优的性能。

附图说明

图1是本发明用户在基站密集型边缘计算网络中移动时进行卸载决策的示意图。

图2是本发明基于深度强化学习的在线任务卸载算法的流程图。

图3是本发明不同方法的基站数量和获得的总奖励的关系图。

图4是本发明不同卸载方法的计算任务数量和获得总奖励的关系图。

图5是本发明不同方法在基站间每一跳的切换时延变换时获得的总奖励的关系图。

具体实施方式

本发明的优选实施例结合附图详述如下：

实施例一：

在本实施例中，参见图1和图2，一种基站密集型边缘计算网络中的在线任务卸载方法，操作步骤如下：

步骤一，为边缘计算网络建模：

考虑一个用户在一个基站密集型边缘计算网络覆盖的区域中移动，该区域中密集地部署了N个基站，所有基站构成集合每一个基站i∈N都配备一个边缘服务器，因此基站既可为用户提供无线电接入服务也可提供计算资源；

不同边缘服务器拥有不同的计算能力，其最大CPU处理频率表示为f_i；基站之间可通过有线电缆或者光纤进行通信；

为了更好地表征在线边缘计算系统，将时间离散化为多个等长时间片组成的时间序列，定义为在每个时间片t∈T下，用户设备会产生一个计算任务ψ^t＝(s^t，c^t)，其中s^t为输入数据大小，c^t为计算该任务所需CPU时钟周期数；

在每个时间片下，用户设备只能连接到部分基站且连接到不同基站的信道增益/>和用户的位置有关；

步骤二，为计算任务执行模式建模：

每个计算任务都可通过两种方式被执行，用o^t∈{0∪K^t}表示t时刻时用户的卸载决策；

步骤2-1、本地执行模型：

当o^t＝0时，任务在本地设备执行；用户需从个离散的等级中选择一个CPU频率去处理任务；处理任务计算时延为/>这一过程消耗的能量为/>其中κ为有效转换电容；

步骤2-2、边缘执行模型：

当o^t＝i∈K^t时，任务在边缘服务器i执行；用户首先需从个离散等级中选择一个传输功率/>来将任务数据以/>的数据传输率传送至边缘服务器，其中W_i是信道带宽，/>是边缘服务器i的平均干扰噪声，总传输时延为/>传输过程产生的能耗为/>

任务到达边缘服务器i后，处理时延为除此以外，若用户卸载时的服务器不同于上一次卸载的选择，会造成一定的服务迁移时延，用δ^t∈N来表示用户连接基站的状态，且任意两基站间切换时延记为σ_i，j，由此切换时延为/>

另外在任何执行模型中，每个时间片下消耗的能耗不能超过当前剩余能量

根据上述系统模型，在时间t下，完成任务ψ^t的总时延可归结为能量消耗为/>

步骤三，卸载决策建模：

根据上述系统模型，卸载决策问题可建模成马尔可夫决策过程其中/>为状态空间，/>为动作空间，/>为转移概率，/>为奖励函数，γ∈[0，1]为折扣因子；

在每个时间片下，状态表示为是所有基站的信道增益，/>为决策动作，用户获得的奖励为/> 其中ω₁和ω₂是两个目标的权重，x为当设备能源耗尽时的奖励；转移概率为在状态s^t采取动作a^t变化为s^t+1；

步骤四：确定卸载策略：

利用基于深度强化学习的方法为计算任务制定卸载策略，使得用户在移动过程中产生的任务所耗费的计算总时延和设备能耗尽可能的小。

实施例二：

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，在所述步骤四中，深度强化学习方法包含两个交替的阶段，即卸载决策动作的产生和网络训练，其具体操作如下：

4-1、卸载决策动作产生：

在每个时间片t下，用户获取当前状态s^t输入到一个参数记为θ全连接神经网络中，该网络称为在线网络，包含一个输入层、两层隐藏层、一层输出层，此网络用于输出所有动作的价值，再通过筛选操作得到可选择动作，最后采用∈-贪心策略以∈的概率随机选择一个动作，以1-∈的概率选择具有最大值的动作，选择的动作a^t处理完计算任务得到由环境反馈的奖励r^t和下一个状态s^t+1；这一交互过程作为一条经验(s^t，a^t，r^t，s^t+1)存放到经验池中；

4-2、网络训练：随机从经验池中的采样一批大小为的经验/>以一条经验为例，将s^j输入到在线网络中，获得动作a^j的价值Q(s^j，a^j；θ)，再将s^j+1输入到在线网络中并选择一个具有最大价值的动作a^j+1＝argmax_aQ(s^j，a^j；θ)，再利用一个参数为θ_的目标网络，这个网络和在线网络具有相同的结构；接下来依据贝尔曼方程，根据经验中的奖励r^j来获取目标动作价值q^j：

q^j＝r^j+γQ(s^j+1，a^j+1；θ_)

由此，在线网络的参数可更新为：

其中α为学习率；除此以外，目标网络的参数每隔一段时间复制一次在线网络的参数作为自己的网络参数。

实施例三：

本实施例与前述实施例基本相同，特别之处在于：

在本实施例中，参照图2，一种基站密集型边缘计算网络中的在线任务卸载方法，操作步骤为：

步骤一，为边缘计算网络建模：

考虑一个用户在一个基站密集型边缘计算网络覆盖的区域中移动，该区域中密集地部署了N个基站，所有基站构成集合每一个基站/>都配备一个边缘服务器，因此基站既可为用户提供无线电接入服务也可提供计算资源。不同边缘服务器拥有不同的计算能力，其最大CPU处理频率表示为f_i。基站之间可通过有线电缆或者光纤进行通信。为了更好地表征在线边缘计算系统，将时间离散化为多个等长时间片组成的时间序列，定义为在每个时间片/>下，用户设备会产生一个计算任务ψ^t＝(s^t，c^t)，其中s^t为输入数据的大小，c^t为计算该任务所需CPU时钟周期数。在每个时间片下，用户设备只能连接到部分基站/>且连接到不同基站的信道增益/>和用户的位置有关。

步骤二，为计算任务执行模式建模：

每个计算任务都可通过两种方式被执行，分别为本地执行和边缘执行，不同的执行模式会造成不同的任务完成时延和设备能量消耗。在线计算卸载的目标即考虑移动智能设备能耗限制条件下，最小化总的任务完成时延和设备能量消耗。这一问题可通过设计在线的基于学习的算法来解决，使得用户设备可独立进行任务卸载决策。

步骤三，卸载决策建模：

对上述的任务卸载决策问题，可建模成马尔可夫决策过程其中/>为状态空间，/>为动作空间，/>为转移概率，/>为奖励函数，γ∈[0，1]为折扣因子。在每个时间片下，状态表示为/>是所有基站的信道增益，/> 为决策动作，用户获得的奖励为/>其中ω₁和ω₂是两个目标的权重，x为当设备能源耗尽时的奖励。转移概率为在状态s^t采取动作a^t变化为s^t+1。由此，问题转换为求解马尔可夫决策过程。

步骤四、确定卸载策略：

利用基于深度强化学习的方法为计算任务制定卸载策略，使得用户在移动过程中产生的任务所耗费的计算总时延和设备能耗尽可能的小。所述的基于深度强化学习方法包含两个交替的阶段，即卸载决策动作的产生和网络训练，其详细细节如下：

4-1.卸载决策动作产生：在每个时间片t下，用户获取当前状态s^t输入到一个参数记为θ全连接神经网络中，该网络称为在线网络，包含一个输入层、两层隐藏层、一层输出层，此网络用于输出所有动作的价值，再通过筛选操作得到可选择动作，最后采用∈-贪心策略以∈的概率随机选择一个动作，以1-∈的概率选择具有最大值的动作，选择的动作a^t处理完计算任务得到由环境反馈的奖励r^t和下一个状态s^t+1。这一交互过程会作为一条经验(s^t，a^t，r^t，s^t+1)存放到经验池中。

4-2.网络训练：

随机从经验池中的采样一批大小为的经验{(s^j，a^j，r^j，s^j+1)，j∈J}。以一条经验为例，将s^j输入到在线网络中，获得动作a^j的价值Q(s^j，a^j；θ)，再将s^j+1输入到在线网络中并选择一个具有最大价值的动作a^j+1＝argmax_aQ(s^j，a^j；θ)，再利用一个参数为θ_的目标网络，这个网络和在线网络具有相同的结构。接下来依据贝尔曼方程，根据经验中的奖励r^j来获取目标动作价值q^j：

q^j＝r^j+γQ(s^j+1。a^j+1；θ_)

由此，在线网络的参数可更新为：

为了更清晰的阐述本发明的目的、技术方案和优点。本实施例通过仿真实验的方式进一步说明本发明实施例的基站密集型边缘计算网络中的在线任务卸载方法的技术效果。本实施例的基于深度强化学习的算法步骤为：

首先在每个时间片下，获取当前用户设备所能观测到的状态信息，再将状态输入到在线网络中，网络输出每一个种动作的价值，根据当前可连接基站情况，对动作进行筛选，得到所有可行动作的价值，以∈-贪心策略选择一个动作执行，接着环境给出这一操作带来的奖励和下一个状态，最后把这一交互过程存储为一条经验，用于对在线网络的训练。本实施例基于深度强化学习的算法使得用户设备可在没有未来信息的情况下独立地决定适宜的卸载方案。

在下面的模拟实验对比过程中，系统参数的默认设置如下。本实施例考虑在一个2km×2km的区域有30个基站且均匀地部署在边缘计算网络中，每个边缘服务器的总计算能力均匀分布在[5,10]GHz，基站服务器间的切换延迟与网络拓扑相关并设定一跳是50ms。用户设备和基站通信的信道增益与用户到基站的距离相关，建模为其中β＝4为路径损耗指数。此外，用户设备与不同基站间信道带宽和平均干扰功率相同，分别设置为10MHz和2×10^-13W。用户设备可分别进行两种级别的CPU频率和发射功率的选择，这两个级别的CPU频率分别设置为1GHz和2GHz，发射功率的级别分别为2mW或4mW。用户设备的有效转换电容为κ＝1×10^-3，初始设备电量设置为/>本实施例默认用户移动过程中产生了150个计算任务，这些任务的输入数据大小s^t∈{0.3，4}Mbits，所需的CPU周期c^t∈[2.5，12]GHz/任务。奖励函数中对于时延和能量的权重分别设置为ω₁＝1和ω₂＝0.5，并设置能源耗尽时奖励为x＝-5。此外，方法中的经验池大小为10000，采样批大小为256，折扣因子为0.9，学习率为0.01，探索概率为0.05，以及更新目标网络参数的频率为200。

首先简要介绍下作为比较标准的四个对比方法仅本地执行(Local Execution)、仅边缘执行(Edge Execution)和贪婪执行(Greedy Execution)。Local Execution将所有计算任务以一定的CPU频率在本地进行处理，Edge Execution将所有计算任务以一定的传输功率卸载到具有最好的信道质量的边缘服务器上执行。Greedy Execution则在每一个时间片下根据当前可获取的信息选择一个最优的策略。

根据上述方法与具体参数设置，通过改变基站数量、时间片数量和切换时延来评估四种算法的性能。每组实验重复10次并取平均值作为最终结果。下文实验对比图中将本发明实施例的基站密集型边缘计算网络中的在线任务卸载方法简称为：Our Approach。

如图3所示，展示了当基站数量变化时每种方法获得的总奖励。从图中可见无论部署了多少个基站，本实施例采用的算法总是比其他方法获得的回报更多，由此可看出本实施例方法的扩展性。具体而言，本实施例采用算法所获得的总奖励分别比GreedyExecution、Edge Execution和Local Execution高14.13％，10.55％和30.75％。

图4对比了当计算任务数量从80逐渐到200时不同卸载方法获得的总奖励，能很容易地发现，计算任务越多，每种方法获得的奖励越小。这是因为随计算任务越多，完成所有任务的总时延就越大，并且设备能耗也增大，尤其当能耗耗尽时，用户会得到一个较大的负奖励。不过，与其他三个方法对比可看出，无论有多少计算任务，本实施例方法都能获得更好的性能。尤其是在有200个时间片时，本实施例算法获得的总奖励分别比GreedyExecution、Edge Execution和Local Execution高3.06％，22.76％和33.56％。

在图5中，对比了每种方法在基站间每一跳的切换时延变换时获得的总奖励。随着每一跳切换时延增加，除Local Execution方法外，其他方法获得的总奖励都变小了。因为增加每一跳的切换时延不会影响本地执行方法，除此外，更大的切换时延导致了任务完成时延变长，从而导致了每种方法获得的奖励变少。但是本实施例方法可制定合理的策略来减少切换时延的产生，从而最大程度地提高总回报，因此是优于其他方法的。当切换时延为250ms时，本实施例算法获得的总奖励分别比Greedy Execution、Edge Execution和LocalExecution高5.12％，12.94％和19.78％。

综上所述，本发明提供的一种基站密集型边缘计算网络中的在线任务卸载方法，通过考虑用户移动性、网络环境动态行和任务异构性，解决了基站密集型边缘计算网络中的在线任务卸载问题，用户通过一个在线网络独立地进行任务卸载决策，大大减少完成设备产生的计算任务的总时延，同时也降低了移动设备完成任务所消耗的能量，使其在有限的能耗限制下完成更多计算任务。

所属领域的普通技术人员应当理解：以上所述实施例仅作为本发明的示例性讨论，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基站密集型边缘计算网络中的在线任务卸载方法，其特征在于，操作步骤如下：

步骤一，为边缘计算网络建模：

考虑一个用户在一个基站密集型边缘计算网络覆盖的区域中移动，该区域中密集地部署了N个基站，所有基站构成集合每一个基站/>都配备一个边缘服务器，因此基站既可为用户提供无线电接入服务也可提供计算资源；

为了更好地表征在线边缘计算系统，将时间离散化为多个等长时间片组成的时间序列，定义为在每个时间片/>下，用户设备会产生一个计算任务ψ^t＝(s^t,c^t)，其中s^t为输入数据大小，c^t为计算该任务所需CPU时钟周期数；

步骤二，为计算任务执行模式建模：

步骤2-1、本地执行模型：

当o^t＝0时，任务在本地设备执行；用户需从个离散的等级中选择一个CPU频率/>去处理任务；处理任务计算时延为/>这一过程消耗的能量为/>其中κ为有效转换电容；

步骤2-2、边缘执行模型：

任务到达边缘服务器i后，处理时延为除此以外，若用户卸载时的服务器不同于上一次卸载的选择，会造成一定的服务迁移时延，用/>来表示用户连接基站的状态，且任意两基站间切换时延记为σ_i,j，由此切换时延为/>

步骤三，卸载决策建模：

根据上述系统模型，卸载决策问题可建模成马尔可夫决策过程其中/>为状态空间，/>为动作空间，/>为转移概率，/>为奖励函数，γ∈[0,1]为折扣因子；

步骤四，确定卸载策略：

2.根据权利要求1所述的基站密集型边缘计算网络中的在线任务卸载方法，其特征在于，在所述步骤四中，深度强化学习方法包含两个交替的阶段，即卸载决策动作的产生和网络训练，其具体操作如下：

4-1、卸载决策动作产生：

在每个时间片t下，用户获取当前状态s^t输入到一个参数记为θ全连接神经网络中，该网络称为在线网络，包含一个输入层、两层隐藏层、一层输出层，此网络用于输出所有动作的价值，再通过筛选操作得到可选择动作，最后采用∈-贪心策略以∈的概率随机选择一个动作，以1-∈的概率选择具有最大值的动作，选择的动作a^t处理完计算任务得到由环境反馈的奖励r^t和下一个状态s^t+1；这一交互过程作为一条经验(s^t,a^t,r^t,s^t+1)存放到经验池中；

4-2、网络训练：随机从经验池中的采样一批大小为的经验/>以一条经验为例，将s^j输入到在线网络中，获得动作a^j的价值Q(s^j,a^j；θ)，再将s^j+1输入到在线网络中并选择一个具有最大价值的动作a^j+1＝argmax_aQ(s^j,a^j；θ)，再利用一个参数为θ_-的目标网络，这个网络和在线网络具有相同的结构；接下来依据贝尔曼方程，根据经验中的奖励r^j来获取目标动作价值q^j：

q^j＝r^j+γQ(s^j+1,a^j+1；θ_-)

由此，在线网络的参数可更新为：