CN112286203A

CN112286203A - 一种基于蚁群算法的多智能体强化学习路径规划方法

Info

Publication number: CN112286203A
Application number: CN202011257321.1A
Authority: CN
Inventors: 张凯歌; 候亚庆; 葛宏伟; 张强
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-01-29
Anticipated expiration: 2040-11-11
Also published as: CN112286203B

Abstract

本发明公开了一种基于蚁群算法的多智能体强化学习路径规划方法。此方法结合了多智能体深度强化学习方法和蚁群算法的思想，来解决多智能体的路径规划问题。具体包括：采用基于Q学习的改进DQN深度强化学习方法及蚁群“信息素”协同机制，利用智能体集群历史信息对神经网络进行训练更新，最终得到智能体集群中各智能体的最优路径规划策略。本发明采用了网络参数共享机制、优先经验回放机制并且改进了神经网络的架构，解决了传统多智能体路径规划方法自适应能力差的缺陷，提升了路径规划的效率，提高了路径规划的稳定性，最终为多智能体系统规划出更高效便捷的行进路径。

Description

一种基于蚁群算法的多智能体强化学习路径规划方法

技术领域

本发明属于智能优化技术领域，涉及一种基于蚁群算法的多智能体强化学习路径规划方法。

背景技术

路径规划问题是人工智能领域热点问题，该问题涉及许多方面，其中包括许多现实的问题，例如：移动机器人导航、飞行器航迹规划、游戏自动导航以及车辆交通导航等。尤其，随着城市化进程的不断加剧，越来越多的人口涌入城市，使城市的规模不断的扩大，与此同时也催生了城市中庞大而复杂的交通系统。所以，为网约车、私家车、货运车辆等这样的移动智能体在复杂的交通网络中高效便捷的规划通路，成为亟待解决的现实问题。

移动智能体路径规划问题指的是在给定的障碍物环境下，设计一定的算法使得智能体可以寻找一条从指定的起点到终点的无障碍最短路径。现有的路径规划算法主要包括从传统图论中建立起来的深度优先搜索(DFS)、广度优先搜索(BFS)、Dijkstra算法和A*算法以及近些年来兴起的一些智能优化算法。其中主要包括蚁群算法、遗传算法、模拟退火算法、免疫算法、粒子群算法以及各算法之间的一些组合优化算法等。这些方法在移动智能体路径规划中取得较好的效果，但面对复杂环境时依然存在种种缺陷。

蚁群算法是一种启发式的随机搜索算法，该算法来源于对自然界蚁群寻找从巢穴到食物源最短路径行为的模拟。蚁群算法通过信息素的积累产生的正向反馈来寻找最优路径，该算法具有分布式计算、无中心控制、易于与其他算法融合的优点。因此，许多学者将蚁群算法用于智能体的路径规划并在离线静态环境中取得较好的效果。但是蚁群算法存在收敛速度慢、易陷入局部最优、早熟收敛等问题，在未知环境下的效果较差，无法应对复杂多变的环境。

强化学习是机器学习中的一个重要领域，强调如何基于环境而行动，以取得最大化的预期利益。其旨在描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。其中，智能体是执行强化学习的主体，同时强化学习算法赋予智能体以真正的“智能”，两者相辅相成，互相依赖。

通过将蚁群算法融入强化学习范式之中，形成基于蚁群算法的多智能体强化学习路径规划方法，能够有效帮助移动智能体进行路径规划。其中考虑了智能体之间的相互影响，并促使智能体在与环境互动过程中灵活决策，生成真正意义上的最优路径。

发明内容

本发明提供了一种基于蚁群算法的多智能体强化学习路径规划方法，旨在快捷高效的为多智能体系统规划出最优路径。本发明方法结合了多智能体深度强化学习方法和蚁群算法的思想，来解决多智能体的路径规划问题。其中，利用深度学习的神经网络作为智能体的“大脑”，处理智能体所感知的环境信息并做出决策；利用蚁群算法中的信息素作为启发式信息，赋予智能体观察环境的能力；利用强化学习的范式来促使智能体与环境互动，让它在与环境的互动过程中规划出可行路径。

本发明采用了如下的技术方案：

一种基于蚁群算法的多智能体强化学习路径规划方法，包括如下步骤：

步骤(1)：获取智能体集群当前环境信息及设置蚁群信息素地图；

步骤(2)：获取智能体集群历史信息，所述历史信息包括历史状态信息及历史决策信息；

步骤(3)：训练多智能体路径规划深度强化学习模型；多智能体路径规划深度强化学习模型采用基于Q学习的改进DQN深度强化学习方法，即基于优先经验回放的Dueling_DDQN算法，以及蚁群信息素协同机制；利用智能体集群历史信息对神经网络进行训练更新，神经网络的优化目标为获得最优的智能体路径规划策略；

步骤(4)：利用训练好的多智能体路径规划深度强化学习模型为智能体集群规划最优路径。

进一步地，所述步骤(1)包括以下步骤：

(1.1)获取智能体集群中每个智能体的初始位置和目标位置信息，并以极坐标的形式存储；

(1.2)探测环境中的障碍物，并存储其极坐标信息；

(1.3)初始化环境中的信息素地图；

(1.4)智能体收集其状态信息，包括：自身传感器信号；自身距离目的地的偏角和距离；自身距离环境中信息素浓度最大位置，即吸引子的偏角和距离；以及自身在群体之中的序号；

(1.5)按照传感器信息、目标位置信息、信息素信息、自身序号的顺序，将收集到的状态信息抽象为一个多元组<传感器探测信号,最近目的地信息,吸引子信息，智能体自身序号>，作为当前的状态描述。

进一步地，所述步骤(3)包括以下步骤：

(3.1)初始化共享经验池D，设置共享经验池大小为N，初始化蚁群信息素地图，设置信息素的扩散速率η和衰减率ρ，智能体集群中智能体数量Ω；

(3.2)利用随机权值θ初始化动作行为值函数Q；

(3.3)令θ^-＝θ，用权值θ^-初始化时间差分(Temporal-Difference,简称TD)目标动作行为值函数Q′；

(3.4)循环执行每个episode，episode＝1,M，M为总的episode数量；

(3.5)对于智能体集群中的每个智能体i，选择吸引子j；其中，吸引子即环境中转移概率最大的位置，即j＝argmax_j∈ξi(t)C_i,j(t)；

C_i,j(t)表示智能体i选择吸引子j的概率。其中，t＝0，表示获取当前episode的第一个状态S_i(0)所需的信息；ε_j(t)为吸引子j在时间t的信息素总量，ξ_i(t)是智能体i感知范围内的吸引子集合；d_i,j(t)是智能体i与吸引子j之间的欧几里得距离；D(·)是一个单调函数，表示随着d_i,j(t)，信息素的影响力逐渐减弱，如图3底部曲线图所示；

(3.6)对于智能体集群中的每个智能体i，将自身的观测值O_i和所选吸引子的极坐标(ρ_i,θ_i)组成一个多元组作为当前状态S_i(0)输入到Q中；

(3.7)循环当前episode的每个时间步t，t＝1,T，T为最大试验次数；

(3.8)在当前时间步t，对于每个智能体i，依据贪婪概率ε选择一个随机动作a_t；

(3.9)若小概率事件没有发生，则用ε-greedy贪婪策略选择当前值函数最大的动作a_t＝argmax_a Q(S_i(t),a；θ)。其中，S_i(t)表示在时间步t智能体i的状态，a为可选的动作，θ为动作行为值函数Q(·)权值；

(3.10)智能体i执行动作a_t，并修改当前位置j的信息素含量；目的是在环境中留下额外的信息素，为后续吸引子的选择提供新的条件信息，这个过程可公式化为：

其中，ε_j(·)表示位置j的信息素含量，a表示在时间t+1智能体所释放的固定信息素量；ρ∈[0,1]表示信息素的衰减率，用来逐渐去除无用的吸引子；

式(2)表明，在智能体行进过程中，距离它较近的吸引子上的信息素浓度会被逐渐提升，而距离它较远的吸引子上的信息素浓度会被逐渐削弱。因为这些距离较远的吸引子，对于当前的智能体i已经不再重要，应该逐渐去除它们的影响，防止给智能体i造成干扰；

(3.11)以固定的扩散速率η将数字信息素小范围扩散到周围区域，并将数字信息素的数量在同一位置线性叠加，其中α是属于0到1之间的常数；

(3.12)智能体i根据式(3)计算其获得的奖励r_i(t+1)并转移到状态S_i(t+1)。采用了奖励塑造的方法，给予智能体启发式的引导信息，指引智能体走向它的目标位置，具体如下：

其中，r_arrive为成功抵达目的地的奖励，r_collision为相互之间发生碰撞的惩罚，r_turn行进过程中拐弯的惩罚，r_close为预防式的靠近障碍的惩罚，r_range为靠近或远离目标点的奖励或惩罚，r_attractor为靠近或远离吸引子的奖励或惩罚；

(3.13)在当前时间步t，将智能体i的经验(S_i(t),a_t,r_i(t+1),S_i(t+1))存入共享经验池D中；

(3.14)当环境中所有智能体i都完成步骤(3.5)-(3.13)后，对于当前环境中已经被智能体集群占据的位置，以衰减率ρ减少其上的信息素含量，ρ是介于0到1之间的常量；

(3.15)从经验池中随机抽取容量为batch的数据样本(S_j,a_j,r_j+1,S_j+1)，输入Q进行训练；

(3.16)判断是否是一个事件的终止状态，若是则TD目标为r_j+1，否则利用TD目标网络θ^-计算TD目标；其中，使用优化的Double DQN方法计算TD目标，计算过程如式(4)所示；

(3.17)执行梯度下降算法，公式如下：

其中，Δθ表示权值θ的梯度，α为学习率，r为即时奖励，γ为折扣因子；Q′(·)为TD目标动作行为值函数，其权值为θ^-；

表示动作行为值函数Q的梯度；

(3.18)更新动作值函数逼近的网络参数θ＝θ+Δθ；

(3.19)每隔C步更新一次TD目标函数权值θ^-，即令θ^-＝θ；

(3.20)当t＝T时，结束每个episode内循环；

(3.21)当episode＝M时，结束整个训练。

进一步地，所述步骤(4)包括以下步骤：

(4.1)智能体集群获取当前状态信息及初始化蚁群信息素地图，组成多元组<传感器探测信号,最近目的地信息,吸引子信息,智能体自身序号>，作为当前的状态；

(4.2)对于集群中的每个智能体i，将步骤(4.1)中获取的状态多元组s_i传输给步骤(3)中训练好的多智能体路径规划深度强化学习模型；

(4.3)多智能体路径规划深度强化学习模型根据输入的状态信息s_i，输出智能体i动作空间中各个动作的价值，并按照ε-greedy方法选择前进方向作为自己将要执行的动作a_i；

(4.4)对于集群中每个智能体i，执行自己的动作a_i，环境随之被改变，智能体集群转移到新的状态；

(4.5)对于集群中每个智能体i，检测它们的状态：如果已到达自己的终点位置，则结束路径规划；每个智能体i走过的路径，就是它的最优路径；否则，重复步骤(4.2)-(4.5)所示的路径规划过程；最终获得智能体集群规划最优路径。

本发明的有益效果：

(1)对于现实世界的路径规划任务，其环境是未知的，需要事先建立关于环境的模型，然后才能进行路径规划。而本发明使用了强化学习范式，可以在未知环境工作，使本路径规划方法具有自适应能力；

(2)信息素为多智能体系统提供了一个相互作用的媒介，使各个独立的智能体可以间接地相互沟通，分享其观察到的环境信息，减少自身行为的局部性，进而促进了多智能体在复杂环境中的协同。同时利用优先采样和优先经验回放机制加强了智能体对于过往经验的学习能力，提高路径规划的稳定性；

(3)使用奖励塑造和参数共享机制。奖励塑造机制引导智能体走向正确的目标位置，同时参数共享机制使得不同智能体之间共享网络参数和经验池，从而互相学习优质的经验从而大幅缩短训练时间，提高路径规划的效率和质量。

附图说明

图1为本发明公开的一种基于蚁群算法的多智能体强化学习路径规划方法实施流程图；

图2为基于优先经验回放的Dueling_DDQN算法流程图；

图3为信息素协同机制示意图；

图4为本发明具体实施方式中智能体获取历史信息示意图；

图5为本发明具体实施方式中多智能体路径规划强化学习模型训练流程。

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图和实例对本发明作进一步详细说明。

如图1所示，本发明公开了一种基于蚁群算法的多智能体强化学习路径规划方法，包括如下步骤：

步骤(3)：训练多智能体路径规划深度强化学习模型。采用基于Q学习的改进DQN深度强化学习方法——基于优先经验回放的Dueling_DDQN算法，以及蚁群信息素协同机制，利用智能体集群历史信息对神经网络进行训练更新，神经网络的优化目标为获得最优的智能体动作选择策略；

其中深度强化模型主要涉及两种方法：即基于优先经验回放的Dueling_DDQN算法和蚁群信息素协同机制。以下分别详细介绍：

(3.1)基于优先经验回放的Dueling_DDQN算法

本发明从优化时间差分(Temporal-Difference,简称TD)目标值、优化神经网络结构和优化经验回放三个方面改进了传统的Nature DQN算法。改进后的算法流程如图2所示。

(3.1.1)优化TD目标值TD_target

传统的Nature DQN算法中存在值函数过估计的问题，本发明使用Double Q-learning的方法解决这个问题。所谓Double Q-learning，是将动作的选择和动作的评估分别用不同的值函数Q(·)来实现。Double Q-learning的TD目标公式为：

从该公式可以看到，当前状态为S(t+1)，动作选择所用的动作值函数为arg max_aQ(S(t+1),a；θ)，此时选择动作值函数的参数为θ。当选出最大的动作a^*后，动作评估的公式为r_t+1+γQ(S(t+1),a^*；θ′)。其中，r_t+1为t+1时刻获得的即时奖励，γ为折扣因子，动作评估所用的动作值函数网络参数为θ′。

(3.1.2)优化神经网络结构

本发明采用Dueling Network的网络结构优化传统的Nature DQN中的网络结构，将Q网络的输出变为两部分，第一部分为仅仅与状态S有关的状态值函数V，记为V(s,θ,α)，第二部分为状态S和选择的动作A均有关，称为优势函数A，记为A(s,a,θ,β)，即：

Q(s,a,θ,α,β)＝V(s,θ,α)+A(s,a,θ,β) (6)

(3.1.3)优化经验回放

传统的Nature DQN中的经验回放采用均匀分布。由于智能体的经验即为经历过的数据，对于智能体的学习并非具有同等重要的意义。智能体在某些状态的学习效率比其他状态的学习效率高。本发明采用优先经验回放的方法打破均匀采样，赋予学习效率高的状态以更大的采样权重。智能体的学习效率越高，权重越大。本发明使用TD偏差δ来衡量智能体的学习效率。TD偏差越大，说明该状态处的值函数与TD目标的差距越大，智能体的更新量越大，因此该处的学习效率越高。

设样本i处的TD偏差为δ_i，每次训练从经验池中均匀采样k＝32个样本，则该样本处的采样概率为：

其中，δ为优先采样程度；p_i为样本i的优先级，

由TD偏差δ_i决定，即p_i＝|δ_i|+∈。

由于动作值函数的估计值是一个有偏估计，为了矫正这个偏差，本发明使用重要性采样系数ω_i，如公式(8)所示。

其中，经验池容量为N；β为退火因子，用于平衡样本利用率和无偏估计；P(i为样本i的采样概率，由公式(7)所示。

(3.2)蚁群信息素协同机制

与单智能体强化学习相比，控制多智能体集群在环境中进行学习要复杂得多，因为智能体不但要与环境互动，而且还潜在地彼此交互。在独立强化学习中，多智能体集群直接使用单智能体算法，每个智能体独立学习自己的策略，将其他智能体视为环境得一部分。由于环境不再是静态的，会使学习变得无效。本发明引入蚁群信息素协同机制来促进智能体之间的交流，其具体的作用机理如下：

a)将相同区域中不同来源的信息素线性叠加；

b)在智能体释放新的信息素后，以固定的扩散速率将信息素小范围扩散到周围区域；

c)以固定的速率减少智能体所在位置上信息素的含量。

信息素协同机制的示意图如图3所示。具体来说，在每个时间步，智能体在探测范围内探测地图上的信息素，并选取其中一处为吸引子，将其极坐标作为状态输入的一部分。

步骤(4)：利用训练好的深度强化学习模型为智能体集群规划最优路径。

下面将通过实例来详细说明本发明的实施过程。选择“雷区导航模拟器”作为智能体集群的训练环境。该环境为32×32的二维平面空间，其中包括坦克、地雷和目标位置三个主要部分。坦克即为我们要操控的智能体，每个坦克具有8个方向的探测器，可以获得可感知范围内存在的障碍物并返回信号给自身；地雷是环境中的障碍物，坦克一旦触碰到地雷，即视为任务失败；当坦克到达目标位置，则视为任务成功。

以智能体集群中包含8个坦克且环境中存在15个地雷为例，详细说明具体实施方法。

具体实施时，步骤(1)包含的具体步骤如下：

(1.1)分别为智能体集群中的8个坦克设置初始位置和目标位置信息，并以极坐标的形式存储；

(1.2)探测环境中的障碍物即15个地雷的具体位置，并存储其极坐标信息；

(1.3)设置环境中的信息素地图，其具体为覆盖整个环境的，大小为32×32的矩阵空间，存储环境中每个位置的信息素浓度值；

(1.4)环境中的8个坦克分别收集其状态信息。具体包括：东、东南、南、西南、西、西北、北、东北共八个方向的传感器信号；自身距离目的地的偏角和距离；自身距离环境中信息素浓度最大位置——吸引子的偏角和距离；以及自身在群体之中的序号；

(1.5)8个坦克分别获得当前环境的状态信息。即按照传感器信息、目标位置信息、信息素信息、自身序号的顺序，将收集到的信息抽象为一个多元组<传感器探测信号,最近目的地信息,吸引子信息，智能体自身序号>，作为当前的状态描述。

具体实施时，步骤(2)的具体过程如图4所示。

t＝0时刻，智能体集群中的每个坦克i，将步骤(1)中观测环境所得的状态多元组<传感器探测信号,最近目的地信息,吸引子信息，智能体自身序号>输入算法的深度神经网络中；此时随机初始化的算法参数θ₀会给予每个坦克i相应的动作a_i；对于集群中的每个坦克i都执行一个动作a_i，并获得奖励值r_i(1)；环境随之发生变化，使智能体集群转移到新的状态S(t+1)；将每个坦克i的历史信息(S_i(0),a_t,r_i(1),S_i(t+1))作为经验存入共享经验池，给模型的训练启动提供最初的数据。

具体实施时，步骤(3)包含的具体步骤如下，训练的过程如图5所示。

(3.1)初始化共享经验池D，设置共享经验池大小为N＝6000，样本容量batch＝128，初始化蚁群信息素地图，将环境中每个位置的信息素含量初始化为0，设置信息素的扩散速率η＝0.1和衰减率ρ＝0.8，智能体集群中坦克数量Ω＝8；

(3.2)利用随机权值θ初始化动作-行为值函数Q；

(3.3)令θ^-＝θ，用θ^-初始化TD目标动作行为值函数Q′；

(3.4)循环执行每个episode(episode＝1,M)，M＝20为总的episode数量；

(3.5)对于智能体集群中的每个坦克i，选择吸引子j；

(3.6)对于智能体集群中的每个坦克i，将自身的观测值O_i和所选吸引子的极坐标(ρ_i,θ_i)组成一个多元组作为当前状态S_i(0)输入到Q网络中；

(3.7)循环当前episode的每个时间步t(t＝1,T)，T＝100为最大试验次数；

(3.8)对于每个坦克i，依据贪婪概率ε选择一个随机动作a_t；

(3.9)若小概率事件没有发生，则用ε-greedy贪婪策略选择当前值函数最大的动作a_t＝arg max_a Q(S_i(t),a；θ)；

(3.10)坦克i执行动作a_t，并修改当前位置j的信息素含量，如式(2)所示；

(3.11)以固定的扩散速率η＝0.1将数字信息素小范围扩散到周围区域，并将数字信息素的数量在同一位置线性叠加；

(3.12)坦克i根据式(3)计算其获得的奖励r_i(t+1)并转移到状态S_i(t+1)，其中r_i(t+1)的计算过程如公式(7)所示；

(3.14)当环境中所有坦克i都完成步骤(3.5)——(3.13)后，对于当前环境中已经被智能体集群占据的位置，以衰减率ρ＝0.8(ρ是介于0到1之间的常量)减少其上的信息素含量；

(3.16)判断是否是一个episode的终止状态，若是则TD目标为r_j+1，否则利用TD目标网络θ^-计算TD目标；其中，本发明使用优化的Double DQN方法计算TD目标，计算过程如式(4)所示；

(3.17)执行梯度下降算法：

(3.18)更新动作值函数逼近的网络参数θ＝θ+Δθ；

(3.19)每隔C步更新一次TD目标函数权值θ^-，即令θ^-＝θ；

(3.20)当t＝T时，结束每个episode内循环；

(3.21)当episode＝M时，结束整个训练。

具体实施时，步骤(4)包含的具体步骤如下：

(4.1)智能体集群获取当前状态信息及初始化蚁群信息素地图，组成多元组<传感器探测信号,最近目的地信息,吸引子信息，智能体自身序号>，作为当前的状态；

(4.2)对于集群中的每个坦克i，其将步骤(4.1)中获取的状态多元组s_i传输给步骤(3)中训练好的多智能体路径规划深度强化学习模型；

(4.3)该模型根据输入的状态信息s_i，输出坦克i的动作空间{东、东南、南、西南、西、西北、北、东北}中各个可选前进方向的价值，并按照ε-greedy方法选择一个前进方向，将其作为自己将要执行的动作a_i；

(4.4)对于集群中每个坦克i，执行自己的动作a_i，环境随之被改变，智能体集群转移到新的状态；

(4.5)对于集群中每个坦克i，检测它们的状态：如果已到达自己的终点位置，则结束路径规划；每个坦克i所走过的路径，就是它所求的最优路径；否则，重复步骤(4.2)-(4.5)所示的路径规划过程。最终获得智能体集群规划最优路径。

本优选实施例所用算法参数如下表所示：

表1：算法参数设置

Claims

1.一种基于蚁群算法的多智能体强化学习路径规划方法，其特征在于，包括如下步骤：

步骤(4)：利用训练好的多智能体路径规划深度强化学习模型为智能体集群规划最优路径；

所述步骤(1)具体如下：

(1.2)探测环境中的障碍物，并存储其极坐标信息；

(1.3)初始化环境中的信息素地图；

(1.5)按照传感器信息、目标位置信息、信息素信息、自身序号的顺序，将收集到的状态信息抽象为一个多元组<传感器探测信号,最近目的地信息,吸引子信息，智能体自身序号>，作为当前的状态描述；

所述步骤(3)具体如下：

(3.2)利用随机权值θ初始化动作行为值函数Q；

(3.3)令θ^-＝θ，用权值θ^-初始化时间差分目标动作行为值函数Q′，时间差分目标简称为TD目标；

(3.4)循环执行每个episode，episode＝1,M，M为总的episode数量；

(3.5)对于智能体集群中的每个智能体i，选择吸引子j；其中，吸引子即环境中转移概率最大的位置，即

C_i,j(t)表示智能体i选择吸引子j的概率；其中，t＝0，表示获取当前episode的第一个状态S_i(0)所需的信息；ε_j(t)为吸引子j在时间t的信息素总量，ξ_i(t)是智能体i感知范围内的吸引子集合；d_i,j(t)是智能体i与吸引子j之间的欧几里得距离；D(·)是一个单调函数，表示随着d_i,j(t)，信息素的影响力逐渐减弱；

(3.9)若小概率事件没有发生，则用ε-greedy贪婪策略选择当前值函数最大的动作a_t＝arg max_a Q(S_i(t),a；θ)；其中，S_i(t)表示在时间步t智能体i的状态，a为可选的动作，θ为动作行为值函数Q(·)权值；

(3.10)智能体i执行动作a_t，并修改当前位置j的信息素含量；目的是在环境中留下额外的信息素，为后续吸引子的选择提供新的条件信息，过程公式化为：

(3.12)智能体i根据式(3)计算其获得的奖励r_i(t+1)并转移到状态S_i(t+1)；采用奖励塑造的方法，给予智能体启发式的引导信息，指引智能体走向它的目标位置，具体如下：

(3.17)执行梯度下降算法，公式如下：

表示动作行为值函数Q的梯度；

(3.18)更新动作值函数逼近的网络参数θ＝θ+Δθ；

(3.19)每隔C步更新一次TD目标函数权值θ^-，即令θ^-＝θ；

(3.20)当t＝T时，结束每个episode内循环；

(3.21)当episode＝M时，结束整个训练；

所述步骤(4)具体如下：