CN113095500A

CN113095500A - 一种基于多智能体强化学习的机器人追捕方法

Info

Publication number: CN113095500A
Application number: CN202110348762.0A
Authority: CN
Inventors: 张雪波; 姜帆; 赵铭慧; 戚琪
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-09
Anticipated expiration: 2041-03-31
Also published as: CN113095500B

Abstract

本发明公开了一种基于多智能体强化学习的机器人追捕方法，该方法包括构建两追一逃环境、构建马尔科夫模型、获取两追一逃网络模型以及扩展多追多逃策略等步骤。该方法利用已知的追捕机器人的运动学模型向前模拟追捕机器人在下一时刻的状态，并通过基于值函数的近似策略迭代算法，训练得到两追一逃环境下的追捕策略，进而通过贪心决策算法扩展至多追多逃的情况，得到多追多逃情况下的最优追捕策略，该方法得到的追捕策略追捕成功率更高，从而使追捕过程更加高效、可靠。

Description

一种基于多智能体强化学习的机器人追捕方法

技术领域

本发明涉及多机器人追逃分析技术领域，更具体的说是涉及一种基于多智能体强化学习的机器人追捕方法。

背景技术

目前，随着人工智能技术的迅猛发展，机器人在越来越多的领域中得到应用，在救援、勘探、侦查和飞行器编队作战等实际应用过程中，机器人之间需要互相协同完成任务，进而延伸出了多机器人追逃问题，但由于追捕机器人和入侵者的数目不断增多，难以通过控制的方法寻找到协作的最优策略。为此，在很多学者力图通过强化学习方法解决多智能体追捕问题，强化学习方法常用的建模方式是网格状环境模型。

但是，由于追捕机器人和逃跑者的状态空间是有限的，它们的动作空间则是在栅格中上下左右移动，这种环境建模方式无法推广至多机器人追捕问题中，实际的移动机器人需要以速度或加速度作为控制输入，且控制周期短。这类端到端连续输入下的控制策略，并不适合采用DQN(Deep Q-Network，深度Q网络)等离散动作学习的方法，而基于策略梯度的方法由于状态空间和动作空间过于庞大，采集到的数据有效性较差，训练大多缺乏稳定性，对数据量的要求很高；

同时，多机器人追捕问题的目标是尽快追捕所有的逃跑者，追捕机器人之间需要完成良好的配合，在某些情况下，机器人会出现消极决策，也可以称为懒惰的状况，缺乏与其他智能体的合作，陷入局部最优的状态无法跳出；

从对手的角度来看，不管是强化学习还是其他的学习方法，训练追捕策略时，必须相应的给定逃跑者的策略，才能完整的构建仿真环境，而逃跑者决策的优劣很大程度上影响了追捕机器人决策的能力上限。

最后，为了采集充足的训练数据，对局循环适合于在仿真环境下快速生成，但是应用于实际的机器人实验环境下，由于各种误差和通信同步问题，仿真环境下训练好的神经网络参数在实验中效果不佳，需要通过实验采集真实数据，对各参数进行重新训练和修正，耗时过多，仿真与实验环境参数缺乏重用性。

因此，如何提供一种准确可靠、高效稳定的机器人追捕方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于多智能体强化学习的机器人追捕方法，该方法有效解决了现有的多机器人追捕方法准确性低、稳定性难以保证、实现过程复杂等问题。

为了实现上述目的，本发明采用如下技术方案：

一种基于多智能体强化学习的机器人追捕方法，该方法包括：

构建两追一逃环境：分别构建两个追捕机器人的运动学模型和一个逃跑者的运动学模型，并建立随机动作与人工势场相结合的逃跑者策略，得到两追一逃环境；

构建马尔科夫模型：根据所述两追一逃环境，构建马尔科夫模型，并确定所述马尔科夫模型中的状态空间、动作空间、回报函数和状态转移概率；

获取两追一逃网络模型：构建用于表征状态值函数的神经网络模型，采用近似soft策略迭代算法对所述神经网络模型进行训练和测试，得到两追一逃网络模型；

扩展多追多逃策略：建立多个追捕机器人和多个逃跑者，基于所述两追一逃网络模型，通过贪心决策算法确定各个追捕机器人的动作，得到最优追捕策略。

进一步地，所述追捕机器人的运动学模型为：

式中，x_pi表示第i个追捕机器人的x坐标，y_pi表示y坐标，θ_pi表示方向与x轴的夹角，v_pi表示线速度，ω_pi表示角速度，a_pi表示第i个追捕机器人的线加速度，β_pi表示角加速度。

进一步地，所述逃跑者的运动学模型为：

式中，x_e表示逃跑者的x坐标，y_e表示逃跑者的y坐标，v_e表示逃跑者的运动速度，φ_e表示逃跑者的运动方向，

分别表示对x_e、y_e进行求导，得到x方向和y方向的速度。

进一步地，所述随机动作与人工势场相结合的逃跑者策略具体为：逃跑者以ε₀的概率选择随机速度和角度，以1-ε₀的概率选择人工势场作用下的速度和角度，公式为：

式中，v_e表示逃跑者的运动速度，φ_e表示逃跑者的运动方向，v_em表示运动速度的上限值，元组X_e＝(x_e,y_e)分别表示逃跑者的x坐标和y坐标，元组X_p＝(x_p,y_p,θ_p,v_p,ω_p)分别表示追捕机器人的x坐标、y坐标、方向与x轴的夹角、线速度以及角速度。

本发明通过状态值函数来评估soft策略迭代方法中状态s的好坏，状态值越大表明该状态越有利于追捕机器人。该状态值函数具体为：

式中，E表示求期望，π表示最大熵评估策略，Q(s_t,a)表示行为-值函数，R(s_t,a)表示回报函数，γ表示折扣因子，V_π表示在策略π下的值函数，

表示追捕机器人采用动作a向前模拟得到的下一时刻的状态。

由于状态空间是连续的，无法用离散的表格来表征状态对应的值，因此本发明采用神经网络来表征状态值函数，输入状态向量，网络输出对该状态的评估值函数，输出值越大，说明该状态对追捕者越有利。本发明中所述神经网络模型包括输入层、两个隐藏全连接层以及输出层；

所述输入层为n×20维张量，所述隐藏全连接层的每一个结点均与上一层的所有结点相连，用来把前边提取到的特征综合起来，两个所述隐藏全连接层的节点数目均为256，激活函数均为ReLU函数，它的作用是给神经网络加入一些非线性因素，只有当时，才有线性的激活函数输出，否则节点不起作用。所述输出层为n×1维的张量，无激活函数，用于表示状态值函数的评估量。

进一步地，采用近似soft策略迭代算法对所述神经网络模型进行训练的过程，具体包括：

初始化表征状态值函数的神经网络模型以及经验池，并随机初始化追捕机器人与逃跑者的初始对局状态；

按照动作集向前预测，根据向前预测的近似值函数计算策略分布；

根据计算得到的策略分布，随机选择追捕机器人的动作；

通过状态值函数计算状态s下神经网络模型的标签值，并将计算结果放入经验池中；

计算逃跑者的动作，并根据追捕机器人的动作和逃跑者的动作，通过运动学模型计算新的对局状态，直至新的对局状态下逃跑者超出追逃范围或者追捕成功，跳出循环；

从经验池中随机抽取预设数量的数据，并采用均方根误差损失更新神经网络模型的网络参数，得到训练后的神经网络模型。

进一步地，所述均方根误差损失的计算公式为：

式中，b表示从经验池中随机抽取的数据数量，

表示根据状态值函数计算的状态s下值函数网络的标签值，

在对局的每一步里，根据向前预测的近似值函数计算策略分布π～P(a^j|s)，根据π的分布随机选择动作a，V_π(s)表示当前值函数网络输入状态s的评估值。

进一步地，采用近似soft策略迭代算法对所述神经网络模型进行测试的过程具体包括：

载入所述神经网络模型、预设数量的初始对局状态，并设定对局胜场数为0；

选择策略分布中概率最大的动作作为追捕机器人的动作；

计算逃跑者的动作，并根据追捕机器人的动作和逃跑者的动作，通过运动学模型计算新的对局状态；

如果新的对局状态下追捕成功，更新胜场数量，并跳出循环，得到对局的胜率测试结果。

测试过程采用给定的值函数网络进行对局，测试追捕成功率。与训练不同的是，测试对局的追捕者动作选取的是最大概率对应的决策。

进一步地，所述扩展多追多逃策略的过程，具体包括：

将多个追捕机器人两两与各个逃跑者组合，并计算各组合方案对应的状态值函数；

根据状态值函数的大小，对各组合方案进行降序排列；

按照排序顺序，采用贪心决策算法依次确认各个追捕机器人的动作，并更新对局状态，得到最优追捕策略。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于多智能体强化学习的机器人追捕方法，该方法利用已知的追捕机器人的运动学模型向前模拟追捕机器人在下一时刻的状态，并通过基于值函数的近似策略迭代算法，训练得到两追一逃环境下的追捕策略，进而通过贪心决策算法扩展至多追多逃的情况，得到多追多逃情况下的最优追捕策略，该方法得到的追捕策略追捕成功率更高，从而使追捕过程更加高效、可靠。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于多智能体强化学习的机器人追捕方法的流程示意图；

图2为两个追捕机器人和一个逃跑者的追捕环境示意图；

图3为逃跑者在势场作用下的合力方向示意图；

图4为表征状态值函数的神经网络的结构示意图；

图5为两追一逃模型的训练及扩展过程原理示意图；

图6为四追两逃贪心决策算法的实现原理示意图；

图7为近似soft策略迭代算法训练过程的曲线示意图；

图8为不同ε取值下的追逃对局轨迹示意图；

图9为追捕失败下的追逃对局轨迹示意图；

图10为稀疏回报+稠密回报的训练过程曲线示意图；

图11为DQN训练单追单逃的胜率变化曲线示意图；

图12为四种不同初始位姿下追捕机器人的运动轨迹示意图；

图13为DQN策略以及ASPI策略下的运动轨迹示意图；

图14为七追四逃对局采用ASPI决策下的运动轨迹示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1，本发明实施例公开了一种基于多智能体强化学习的机器人追捕方法，该方法包括：

S1：构建两追一逃环境：分别构建两个追捕机器人的运动学模型和一个逃跑者的运动学模型，并建立随机动作与人工势场相结合的逃跑者策略，得到两追一逃环境。

如图2所示，本实施例中追逃区域设定为边长L＝10米的有界正方形，四周可视为墙壁，正方形内部无任何障碍物，任何个体与边界发生碰撞则视为个体不存在，具体地，如果追捕机器人碰撞边界，则将其剔除，如果逃跑者碰撞边界，则视为追捕成功。

有界环境中放置两个追捕机器人P和一个逃跑者E，它们均可获取全局的状态，且具有相同的决策周期，双方都无法预知对方的策略。

本实施例中两个追捕机器人的运动学模型相同，均为存在非完整约束的移动机器人，运动学模型如下:

其中，元组X_pi＝(x_pi,y_pi,θ_pi,v_pi,ω_pi)分别表示第i个追捕机器人的x坐标、y坐标、方向与x轴的夹角、线速度、角速度。追捕机器人的控制量是(a_pi,β_pi)，分别表示第i个追捕机器人的线加速度和角加速度，因而追捕机器人的速度均为连续的。

追捕机器人的状态量和控制量存在上下界，需要满足以下关系式：

其中，y_pi需要在追捕区域的长度范围内，x_pi需要在追捕区域的宽度范围内，其余的每个参量均存在一个上限值和下限值。

图2中的α角表示追捕机器人的速度方向与追捕机器人和逃跑者连线之间的夹角，可由向量夹角推导出α，公式为：

式中，

表示两追一逃环境中追捕者的速度方向，

表示两追一逃环境中的P点到E点的向量。

本实施例中逃跑者的运动学模型与追捕机器人不同，多追捕的问题下需要赋予逃跑者更灵活的逃跑能力，在实际应用中，逃跑者可以是人或机器人，因而本实施例将逃跑者建模为可全向移动的物体，其运动学模型如下：

其中，元组X_e＝(x_e,y_e)分别表示逃跑者的x坐标和y坐标，逃跑者的控制量是(v_e,φ_e)，表示运动的速度和方向，逃跑者的状态量和控制量也存在上下界，需要满足以下关系式：

在以上的模型中，逃跑者的运动不存在非完整约束，可以全向移动，比追捕机器人更加灵活。

追捕成功的条件是：在给定的追捕时间内，任意一个追捕机器人与逃跑者之间的距离小于追捕距离，可以描述为下式：

其中，d(X_pi,X_e,t)＝|x_e(t)-x_pi(t),y_e(t)-y_pi(t)|表示在t时刻第i个追捕机器人和逃跑者的距离，本实施例的追捕环境下逃跑者运动灵活，追捕难度更大。

本实施例赋予逃跑者较强的逃跑能力，逃跑者采用随机动作与人工势场法相结合的策略，生成的随机动作赋予逃跑者难以预测的逃跑决策，通过人工势场计算出的斥力方向赋予逃跑者远离追捕机器人的能力，利用灵活的运动学优势拖延时间。

具体地，逃跑者的策略是以ε₀的概率选择随机速度和角度，以1-ε₀的概率选择人工势场作用下的速度和角度，公式如下：

理论上来看，逃跑者需要远离追捕机器人，远离边界来保证更长时间的存活。因此本实施例建立人工势场，与边界和追捕机器人的距离越近，斥力越大，将边界设为斥力，追捕者设为斥力，进行力的矢量相加，最后计算出合力的方向。下式为斥力场的设置：

式中，q和q₀分别表示逃跑者和施加力的物体的位置，d(q,q₀)表示它们之间的距离。

斥力是斥力场的梯度，可推导出斥力表示为式：

为了预防逃跑者出界，只有距离逃跑者最近的两条边会给它施加斥力，方向垂直于边界朝向内部，为了使逃跑者远离追捕机器人，每个追捕机器人对它施加斥力，方向与追捕机器人指向逃跑者的连线方向一致。

因此，一部分是两个追捕机器人对它的斥力F₁₁和F₁₂，另一部分是正方形的垂直边界和水平边界对它的斥力F₂和F₃，最终的合力通过力的分解与合成计算得出，公式如下：

式中，F_1i表示第i个追捕者对逃跑者的斥力，即F₁₁和F₁₂，F₂和F₃分别表示正方形的垂直边界和水平边界对它的斥力。

如图3所示，逃跑者在势场作用下受到两个追捕机器人的斥力与边界的斥力，这些作用力计算出合力F_合的方向即为逃跑者合适的逃跑方向，逃跑者的速度设置为最大速度，能够更快地远离追捕者和边界。

S2：构建马尔科夫模型：根据两追一逃环境，构建马尔科夫模型，并确定马尔科夫模型中的状态空间、动作空间、回报函数和状态转移概率。

首先，对强化学习的内容进行说明：强化学习作为机器学习的范式和方法论之一，常用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。下表1为强化学习的几个重要概念：

表1强化学习的基本概念及解释

在强化学习中，马尔科夫模型(MDP，Markov Decision Process，即马尔科夫决策过程)描述了智能体在某一状态下采取一个动作转移到下一个状态，获取一步的回报，马尔科夫模型的四个组成部分分别是状态空间、动作空间、回报函数和状态转移概率。

在两追一逃的问题上，状态空间包含两个追捕机器人的状态和一个逃跑者的状态，动作空间包含追捕机器人和逃跑者的动作，回报函数的设置在强化学习中至关重要。

在两追一逃的问题下，由于追逃双方在正方形范围内的位置可以任意初始化，因而状态空间是连续且无限大的，每一时刻下的状态表示为下式：

S＝{X_p1,X_p2,X_e}＝{x_p1,y_p1,θ_p1,v_p1,ω_p1,x_p2,y_p2,θ_p2,v_p2,ω_p2,x_e,y_e}

上式中包含两个追捕者的坐标、速度方向、线速度、角速度以及逃跑者的坐标。

在一般的MDP中，动作空间的数目是有限的，有限的动作利于强化学习的训练，根据追捕者的运动学模型，本实施例将追捕者动作分为以下五种离散的动作，分别是保持原加速度不变、最大线加速度和不变的角加速度、最小线加速度和不变的角加速度、不变的线加速度和最大角加速度、不变的线加速度和最小角加速度。具体参见下式：

A(a,β)＝{(0,0),(a_m,0),(-a_m,0),(0,β_m),(0,-β_m)}

式中，A(a,β)分别表示五种不同的线加速度和角加速度的组合，能够满足转弯、加减速的任意动作。

对于两个追捕机器人而言，它们的联合动作空间可以表示为25种动作组合

回报函数用来将任务目标具体化和数值化，在追逃问题构建的环境中，追捕成功对应着较大的正回报，追捕机器人出界对应着较大的负回报，而在追捕机器人接近逃跑者的时候，需要给出一定的奖励，有助于策略的学习和更新。追捕机器人距离逃跑者越近，表明追捕成功的可能性越高，由此给出了回报函数公式：

R_d(s,a)＝λ(d(s)-d(s′))-δ

其中，R_s为稀疏回报函数，R_d为追捕过程中的稠密回报函数。上式中，λ表示距离作为回报贡献的系数，d(s)和d(s')表示当前状态和上一时刻状态下的追捕机器人和逃跑者的最短距离，δ表示每增加一次追捕时间步带来的惩罚，为了鼓励追捕更快结束。稀疏回报是在追捕对局产生结果时得到的奖励，如果追捕者超出范围，得到-1的回报，如果追捕成功，得到+1的回报。

本实施例中状态转移概率是未知的，因为逃跑者作为状态中的组成部分，它的行为不可预测，但是可以通过设置较小的模拟步长假定逃跑者位置不变，获得近似状态转移概率。

S3：获取两追一逃网络模型：构建用于表征状态值函数的神经网络模型，采用近似soft策略迭代算法对神经网络模型进行训练和测试，得到两追一逃网络模型。

强化学习训练的目标是最大化累积回报函数，它的期望可以表示为：

把这个期望定义为状态值函数，上式表示在s_t状态下的值评估，R表示回报函数，s_i+t表示i+t时刻下的状态，ɑ_i+t表示i+t时刻选取的动作，γ表示折扣因子，取值范围是(0,1)，用于衡量长期回报和短期回报的重要性，γ越大表示智能体越重视长期回报。

首先，介绍基本的soft策略迭代方法，它是一种在soft策略评估和soft策略改进之间不断迭代的过程。soft策略评估根据最大熵评估策略π的值，对于固定的策略来说，状态-行为值函数，也可以称作soft Q函数，可以用以下公式计算：

其中，T^π是贝尔曼操作符，

表示soft状态-值函数。

soft策略改进是根据新的soft Q函数进行策略更新，公式如下：

soft策略迭代可以收敛到最优策略，具体的证明本发明中不在赘述。

基于soft策略迭代方法和两追一逃问题，本发明提出了一种基于值函数的近似策略迭代算法，构建值函数V(s)来评估状态s的好坏，状态值越大表明该状态越有利于追捕机器人。据此，soft Q值可以得到每种动作的评估值，因此如果策略π是已知的，V(s)可以推导为式：

此公式根据策略分布π计算出近似的Q(s_t,a)，

是通过追捕机器人运动学采用动作a向前模拟得到的下一时刻的状态，实际上，下一时刻的状态不仅追捕机器人的状态发生了改变，逃跑者也执行了某种动作，但由于无法预知逃跑者的动作，因而将下一时刻的状态近似为逃跑者不动，只有追捕机器人变化，由于决策周期设置的数值很小，因而逃跑者在这一个决策周期内的状态改变很小，这一近似是相对合理的。

得到了下一时刻的状态值后，可以根据soft策略改进推导出新的策略分布：

其中，τ是用于调节探索和利用之间平衡性的超参数，τ越小，概率分布的形状越平滑，不同动作对应的概率相差越小，带来更多的探索能力，相反τ越大，选择值更大的动作的概率相对越大，利用当前策略生成的数据越好。

由于状态空间是连续的，无法用离散的表格来表征状态对应的值，因此采用神经网络来表征状态值函数V(s)，输入状态向量，网络输出对该状态的评估值函数，输出值越大，说明该状态对追捕者越有利。

本实施例中构建的神经网络模型，其神经网络类型采用最常用的BP神经网络，网络输入是(n×20)维张量，中间包括两个隐藏全连接层，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来，两层的节点数目均为256，激活函数均是ReLU：f(x)＝max(0,x)，它的作用是给神经网络加入一些非线性因素，只有当x>0时，才有线性的激活函数输出，否则节点不起作用。输出层是(n×1)维的张量，无激活函数，表示值函数的评估量，网络结构如图4所示。

上述神经网络模型中的20维张量分别是：

其中，d₁、d₂分别表示两个追捕者距离逃跑者的距离。

每一维张量都采用最大-最小标准化的归一化方法，将其归一化为[0,1]的值，公式为：

式中，X表示需要归一化的量，min表示X的取值下限，max表示X的取值上限。

由于追逃对局的环境是连续且有界的，状态空间复杂且连续，因此本实施例采用神经网络来表示状态值函数V(s)，神经网络模型的输入是追捕机器人和逃跑者的状态进行特征筛选和归一化处理后得到的20维向量。算法1是训练部分的伪代码，共包含N个外层循环，每次采集若干对局的数据放入经验池中，再进行统一的网络训练。

结合附图5，本实施例中算法1，即通过近似soft策略迭代算法进行训练的过程具体为：

算法2是测试部分的伪代码，用于采用给定的值函数网络进行对局，测试追捕成功率。与训练不同的是，测试对局的追捕者动作选取的是最大概率对应的决策。

本实施例中算法2，即通过近似soft策略迭代算法进行测试的过程具体为：

S4：扩展多追多逃策略：建立多个追捕机器人和多个逃跑者，基于两追一逃网络模型，通过贪心决策算法确定各个追捕机器人的动作，得到最优追捕策略。

参见附图5，在训练好的两追一逃网络的基础上，可以将问题拓展为N追M逃的环境上，例如四个追捕机器人P₁、P₂、P₃、P₄与两个逃跑者E₁、E₂，首先计算追捕机器人两两与各个逃跑者组合的值函数，并将这些组合根据值函数大小进行降序排列，比如：

V(S(P₁,P₄,E₁))>V(S(P₂,P₄,E₂))>V(S(P₂,P₁,E₁))>V(S(P₃,P₁,E₁))>…

从最大的V值开始，每步采用贪心原则，第一次确认P₁和P₄的动作，在P₄已确定的动作下，确认P₂的动作，最后确定P₃的动作，顺序如图6所示。

如果场上只剩一个追捕机器人，则采用DQN训练的单追单逃网络进行决策即可。

下面通过搭建仿真平台对本实施例公开的上述方法进行仿真分析。

在环境搭建的过程中，按照下表2中的参数进行设置，后续的环境参数也按照下表2设定，表2给出了在采集数据和训练过程中相关参数的设置。

表2仿真环境的参数含义与数值设置

符号	含义	数值(单位)
			v<sub>pl</sub>	追捕机器人的最小速度	0.1m/s
v<sub>pm</sub>	追捕机器人的最大速度	1.5m/s
			ω<sub>pm</sub>	追捕机器人的最大角速度	1rad/s
a<sub>m</sub>	追捕机器人的最大线加速度	0.8m/s<sup>2</sup>
			β<sub>m</sub>	追捕机器人的最大角加速度	1rad/s<sup>2</sup>
v<sub>em</sub>	逃跑者的最大速度	1m/s
			D	追捕机器人的追捕距离	0.3m
T	追捕一局的最大时间步长	500
			△t	追逃对局中双方的决策周期	0.1s
L	追捕范围正方形的边长	10m

下表3给出了在采集数据和训练过程中相关参数的设置方案：

表3采集数据和网络训练中的参数设置

符号	含义	数值
			λ	稠密回报函数的距离参数	0.1
δ	稠密回报函数步数惩罚	-0.01
			τ	玻尔兹曼分布的超参数	0.2
b	小批量训练网络时每一批数据的大小	128
			γ	贝尔曼方程折扣因子	0.99
l<sub>r</sub>	训练值函数网络的学习率	0.0001
			ε<sub>0</sub>	逃跑者选择随机策略的初始概率	0.9
M	每个训练的循环采集的对局数目	100
			M<sub>test</sub>	每次测试的对局数目	100

本实施例中所有训练和测试的代码均用Python编写，在Windows 10，Python 3.5环境下运行，神经网络和训练采用PyTorch深度学习包实现，曲线结果的绘制采用Matplotlib包。

首先随机初始化100个初始对局状态作为测试的用例，每次测试网络能力都采用这些固定的初始对局，确保测试的公平性。

第一部分训练只采用稀疏回报，在每一次循环中，采集100局数据，并在采集过程中按照上述算法进行标签的生成，训练时采用的损失函数是均方误差损失(即MSE Loss)，每次随机在经验池中抽取一批数据采用Adam优化器进行训练。每次大循环结束后，用100个测试用例进行对局，测试值函数网络的能力，计算当前网络下的追捕成功率。如果成功率和步数满足要求，则减小ε以提升逃跑者的能力。图7是采用上述过程训练500个循环的中间步结果，包括测试100局的平均步长，追捕成功率以及逃跑者随机运动的概率。

图7为近似soft策略迭代算法训练过程的曲线，其中，回报函数是稀疏回报，具体示出了每次循环后100个样例测试的对局平均步长、测试对局的胜率、逃跑者选择随机策略的概率以及最优结果点。

从图7分析可知，前136个循环是有效的训练过程，胜率从0开始迅速上升至90％左右，逃跑者选择随机动作的概率不断降低，追捕难度加大，直至这一概率值到达ε＝0.62，追捕机器人的策略网络能力达到最强，此时胜率为91％，平均步长为161步(即16.1秒)。从第137个循环开始，胜率逐渐下滑，平均步长攀升，网络难以训练出应对灵活且策略更优的逃跑者的策略，端到端控制的强化学习。将第136次循环训练的模型上应用到不同的ε上，得到如图8所示的追逃轨迹，从步长大小可以明显发现ε越小追捕越难，在ε＝0.2这一更小的值时，追捕机器人由于灵活性的限制无法接近逃跑者，直至超出步长限制也无法成功追捕，如图9所示。采用稀疏回报训练的结果反映了训练的瓶颈。

图8为不同ε取值下的追逃对局轨迹其中，图a为ε＝0.9，步长63；图b为ε＝0.8，步长108；图c为ε＝0.7，步长142；图d为ε＝0.6，步长204。

图9示出了ε＝0.2时，追逃对局超出步数限制，追捕失败。

第二部分采用的是稠密回报+稀疏回报，在第一部分的结果中可知逃跑者能力在ε＝0.62可击败的，因而初始时采用0.62进行数据采集和训练，当胜率达到90％以上时，切换为只采用稀疏回报，训练50个循环的结果如图10所示，完成第23个循环的训练时(黑色竖线标注的位置)，网络的能力最强，此时ε＝0.56，胜率为92％，平均步长为159。

与第一部分的训练进行对比，显然双回报设置使得训练进度加快，且在应对更灵活的逃跑者的情况下，仍然能够达到90％以上的追捕成功率。

在相同的追捕环境下，采用DQN的强化学习方法训练单个追捕机器人的追捕策略，与ASPI(Approximate Soft Policy Iteration，近似策略迭代算法)方法进行对比，DQN训练方法按照标准算法进行单追捕机器人追捕逃跑，且中间状态的回报函数同样以追逃双方的距离差给定，最后一步采用胜负结果{1,-1}作为回报，每采集一步数据就放入经验池，随机从经验池中抽取一批数据进行训练，每完成100个对局进行一次胜率测试，共进行3000个对局的训练。由于动态单追单逃情况下的逃跑者占据优势，因而DQN训练数据生成时逃跑者随机初始化位置，在对局中保持不变。图11是测试30次的胜率变化曲线，图12是DQN追捕胜率100％的几种不同初始位姿下的轨迹图。

采用训练成功率为100％的DQN网络提供每个追捕机器人的策略，在两追一逃的环境中测试胜率，图13中显示了在相同初始位姿下两种方法的运动轨迹，逃跑者轨迹末端的圆表示追捕范围，只要追捕机器人进入这个圆圈，就表明该逃跑者被成功追捕。左侧的图i和图k示出的轨迹是DQN的对局，即DQN策略的运动轨迹，右侧的图j和图m轨迹是ASPI的对局，即ASPI策略的轨迹，从图13中可以发现右侧追捕过程明显更短，而左侧的追捕机器人都在跟随逃跑者，却由于灵活性的限制而无法追捕成功。

根据贪心追捕策略，将训练好的ASPI值函数网络应用于M个追捕机器人追捕N个逃跑者的环境中，在相同的ε数值下，分别在多种追逃数量组合的情况下，采用DQN与ASPI方法测试100个追逃对局，只有追捕到全部逃跑者才视为追捕任务成功，用DQN方法进行决策时，每个追捕机器人都分别计算与逃跑者之间的动作评估值然后进行累加，该机器人的动作选择和最大的值对应的动作。胜率结果如下表4所示：

表4测试多组M追N逃跑环境下的胜率(ε＝0.6)

序号	追捕机器人数量	逃跑者数量	DQN胜率	ASPI胜率
					1	4	2	23％	83％
2	3	2	18％	73％
					3	5	3	7％	71％
4	7	4	2％	68％

由上表4可知，在追逃环境复杂的情况下本实施例公开的ASPI方法胜率远高于DQN，随着逃跑者数量的增加，ASPI方法胜率也有所下降，是因为需要追捕更多的逃跑者导致步数增加，超出给定限制。

图14是采用ASPI-Greedy方法测试7追4逃环境下的对局轨迹，在第446时间步完成所有逃跑者的追捕。综上所述，本实施例提出的贪心策略可以很好的应对变数目多追多逃的追捕问题。

本实施例在已知追捕机器人运动学模型的情况下，利用了向前模拟追捕机器人在下一时刻的状态，提出了一种基于值函数的近似策略迭代算法，训练两追一逃环境下的追捕策略，并通过贪心决策拓展至多追多逃的问题。仿真结果以及与DQN方法的对比表明，本实施例提出的算法收敛快，追捕策略更优，在多追多逃的环境下，依然能够具有较高的追捕成功率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。