CN114355973A

CN114355973A - 一种基于多智能体分层强化学习的弱观测条件下无人集群协同方法

Info

Publication number: CN114355973A
Application number: CN202111623192.8A
Authority: CN
Inventors: 刘海波; 王耀光; 沈晶; 史长亭
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-15
Anticipated expiration: 2041-12-28
Also published as: CN114355973B

Abstract

本发明属于无人集群协同技术领域，具体涉及一种基于多智能体分层强化学习的弱观测条件下无人集群协同方法。本发明首先对环境进行状态定义，然后按照POMDP模型对状态空间进行定义，包括观察集合以及观察函数，再随机初始化一个由一系列概率值分布的信念状态，同时根据传统强化学习思想，设置状态转移函数、立即回报函数、折扣率、探索率等；然后采用基于MAXQ算法的分层强化学习框架，将无人集群的任务分层，达到对复杂的任务进行分而治之的目的，降低集群的参数维度，有效缓解计算机存储不足和计算繁琐的压力，提高强化学习效率和精度。本发明能够保证多个智能体参与协同任务时保持更高的效率和更好的协同效果。

Description

一种基于多智能体分层强化学习的弱观测条件下无人集群协同方法

技术领域

本发明属于无人集群协同技术领域，具体涉及一种基于多智能体分层强化学习的弱观测条件下无人集群协同方法。

背景技术

无人集群在工业控制、交通运输、国防安全等领域的实际应用越来越广。真实环境复杂程度高、不确定性强、自然因素干扰多，集群成员个体观测能力有限(观测距离有限、观测角度有限、抗干扰能力有限、观测精度有限，以下称之为弱观测)，无人集群有效协同面临诸多挑战。现有的无人集群协同方法主要有两类：一类是基于模型的协同，如基于构型空间的协同、基于博弈论的协同、基于概率规划的系统、基于领域知识的协同、基于最优化理论的协同等；一类是无模型的协同，如基于强化学习的协同等。基于模型的协同利用先验知识建立协同模型，通过学习调整优化模型参数，生成最优协同方案。此类方法需对环境、任务具有充分的先验知识，但实际应用中，未知环境的先验知识是很难获得的，任务环境精确建模非常困难。无模型的协同主要采用试错机制，通过“状态-动作”空间搜索生成协同方案，对任务、环境先验知识要求宽松，容易实现；但也存在搜索空间大，效率低和维数灾难问题。尽管已有一些强化学习方法在解决维数灾难问题上有一些进展，如MAXQ(最大值函数法)、HAM(分层抽象机)、DQN(深度Q学习网络)、DDPG(深度确定性策略梯度)算法、Dueling-DQN(竞争型DQN)等，但现有方法中，对弱观测条件考虑得极不充分，致使无人集群在未知真实环境中的协同效果依然不尽人意。

发明内容

本发明的目的在于提供一种基于多智能体分层强化学习的弱观测条件下无人集群协同方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：设定POMDP模型参数；

首先对信念空间S进行状态定义，用一个集合表示为：{S₀，S₁，S₂……S_n}；然后基于状态个数定义一个观察集合O＝{o_i|i＝1,2,3…n}，对于完全可观测的MDP，无人集群的观察结果是确定的，即O＝S，但是在弱观测条件下，POMDP模型中的O是对S的部分跟踪和近似，观察到的状态不确定，其中观察和状态之间的转换关系需要定义一个观察函数，其计算公式表示为：

O(s′,a,o)＝P(o|s′,a)

该公式表明无人集群采取一个动作a后，在下一个状态s′时观察到o的概率；

另外，由于环境的复杂多变性、以及集群成员个体性能受限，使无人集群对环境的感知不完全确定；因此POMDP中，只能通过观察得到系统所在状态的不完全的信息，不能够完全描述系统的状态。决策选择行动时需要考虑初始状态、所有的观测结果和已采取的行动序列，即需要参考所有的历史信息。这些历史信息用信念状态来描述；因此，需要初始化一个信念状态b₀＝{b₁,b₂…b_n}，该信念状态是一个概率值的分布集合，且所有概率值之和为1，在这个意义上信念状态是行动策略选择时的充分统计量，它描述的是所有状态的概率分布，是根据观测结果和已采取的行动而对系统状态的一种估计；

步骤2：将无人集群的总任务按照分层强化学习思想进行分层，采用基于值函数分解的分层强化学习学习算法的分层思想进行训练学习；首先将一个马尔可夫决策过程M分解成多个子任务{M₀，M₁，M₂，M₃……M_n},M₀为根子任务，M₀和其余子任务M_i形成分层结构，解决了M₀就意味着解决了原问题M；对于每一个子任务M_i,都有一个终止断言T_i和一个动作集合A_i；这个动作集合中的元素既可以是其他的子任务,也可以是一个智能体可直接执行的动作；执行一个子任务M_i的目标是转移到一个状态,可以满足终止断言,使得此子任务完成并得到回报值，体现出此任务的优劣；

步骤3：为无人集群进行动作集的定义；由于通过分层强化学习框架进行训练学习，所以划分的动作集包含原始动作和选择子任务两种动作；其中原始动作定义为无人集群中的单个个体或整个集群所能一步完成的实际动作，而选择子任务的动作定义为选择一个组合任务，该组合任务不能立即执行，需要对其进行若干次递归调用，直到选择了原始动作；

步骤4：设定完成某个任务的立即回报值；设定回报值时应充分考虑无人集群的训练目的和实现目标，确保无人集群在每一次完成一个任务后，得到的奖赏和惩罚能够体现当前所选策略的优劣，对集群具有指导作用，从而经过多轮的训练学习，使无人集群找到一套符合期望的状态动作集；当子任务M_i是原子任务时，得到一个对应于原子任务的动作的立即回报值，若此动作符合人们的预期，则得到一个比较大的回报，反之得到一个小的回报值；当选择的是组合任务时，其回报值计算为一个有限步的累加数值，此步数从选择此组合任务开始计数，直到此任务结束；

步骤5：设定探索率；为确保在多种策略中，通过试错的方式找到最佳方案，在强化学习训练过程中需要设定一定的探索率，使系统能够随机的探测到任一信念状态，避免陷入局部最优求解过程，忽略没有选择过的更优动作，更加符合实际情况中的复杂性，训练结果也更精确；

步骤6：设定值函数计算公式；

子任务集{M₀，M₁，M₂……M_n}中每个子任务M_i为一个三元组

T_i(s)是一个终止谓语，它把状态空间分成活动状态S_i和终止状态T_i两部分，只有当状态s∈S_i时，子任务M_i的策略才可以执行；A_i是完成子任务M_i所要执行的动作的集合，这些动作既可以是动作原语，也可以是其他子任务；

是伪报酬函数，其为每个转移到终止状态的转移制定了伪报酬值；M中的每个基本动作j就是MAXQ分解结构中的一个原子任务，j总是可立即执行的，并且执行后立即得到一个回报值；

对于给定的任务集合{M₀，M₁，M₂……M_n}和分层策略π，每个子任务M_i，根据当前的信念状态，定义了一个行动集A_i、信念状态转移概率函数P_i ^π(b(s′),N|b(s),j)以及期望报酬函数R(i,b(s))＝V^π(i,b(s))的SMDP；其中V^π(i,b(s))是在信念状态b(s)下，子任务M_i的状态值函数；如果M_i是原子任务，原子任务单步执行后立即结束，那么V^π(i,b(s))就是在信念状态b(s)下执行动作后的立即回报值：

如果M_i是组合任务，根据π_i选择的第一个子任务是j，而该子任务被调用，并且执行N步以后以P_i ^π(b(s′),N|b(s),j)的概率在信念状态b(s′)终止，那么状态值函数为：

其中，γ是折扣因子；

设Q^π(i,b(s),j)是在信念状态b(s)下根据策略π执行动作j后，直至子任务M_i终止的子任务M_i的期望累计报酬；行动j既可以是基本动作，也可以是另一个子任务。则Q^π(i,b(s),j)可表示为：

为简化公式，增加一个完成函数C^π(i,b(s),j)，其意义是在信念状态b(s)下，执行子任务M_j后到完成M_i的期望折扣累计报酬，从子任务M_i开始执行的时间点开始计算折扣报酬值；

根据此定义，Q^π(i,b(s),j)＝V^π(j,b(s))+C^π(i,b(s),j)；

最终，V^π(i,b(s))定义为：

步骤7：对信念空间进行扩展，该过程是基于步骤1中设定的初始信念状态，对信念状态进行更新；由于在信念空间中距离较近的信念状态值函数计算结果相近，没有对比意义，因此为简化计算过程，更新过程中，淘汰相近的信念状态，从而使信念空间更具代表性；

步骤8：基于POMDP模型的分层强化学习框架以及所有的参数定义完成之后，开始训练，将每一次训练的结果即状态动作值记录入Q表中，经过多轮训练，表格逐渐趋于收敛，无人集群的运行效果越来越接近期望效果，当值函数前后两次的计算结果差值达到预定的可接受误差范围内时，即可停止训练；

步骤9：将POMDP模型下的分层强化学习框架中的探索率设为零，使无人集群采用训练完成的策略运行。

本发明的有益效果在于：

本发明首先对环境进行状态定义，然后按照POMDP模型对状态空间进行定义，包括观察集合以及观察函数，再随机初始化一个由一系列概率值分布的信念状态，同时根据传统强化学习思想，对常规参数进行设定，包括状态转移函数、立即回报函数、折扣率、探索率等。然后采用基于MAXQ算法的分层强化学习框架，将无人集群的任务分层，达到对复杂的任务进行分而治之的目的，降低集群的参数维度，有效缓解计算机存储不足和计算繁琐的压力，提高强化学习效率和精度。本发明综合部分观测思想和任务分层技术，对无人集群进行训练学习，能够保证多个智能体参与协同任务时保持更高的效率和更好的协同效果，这在无人集群中有较为广泛的应用前景。

附图说明

图1为POMDP模型的示意图。

图2为基于MAXQ算法分层强化学习结构框图。

图3为传统算法下的无人集群拦截效果图。

图4为在弱观测条件下通过分层强化学习后的无人集群拦截效果图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明的目的是为克服无人集群在复杂环境中协同性较差的问题而提供的一种在弱观测条件下，基于分层强化学习的协同任务规划方法。现有技术中存在的问题与不足，导致无人集群在执行协同任务时表现的不尽人意。首先，集群执行任务的环境复杂程度高、不确定性强、自然因素干扰多，集群成员个体的观测距离、观测角度、抗干扰能力、观测精度等受限，使无人集群对环境的感知和状态的划分存在一定的偏差，本发明采用POMDP(部分可观测马尔科夫决策过程)框架，通过对不可完全感知环境进行信念空间划分，对基于信念状态的值函数进行最优解的计算，求出最优策略，使训练学习的过程和结果更加符合实际；其次，当无人集群的协同任务较为复杂时，集群要学习的策略和选取的动作繁多，如果不对任务进行有效的分层，在多次的训练学习过程中，需要训练的参数数量会出现指数增长，这会消耗大量的计算和存储资源，降低学习效率，分层强化学习将复杂问题分解成若干子问题，通过分而治之的方法将子问题逐个解决，从而最终解决一个复杂任务。

本发明提出了一种基于多智能体分层强化学习的弱观测条件下无人集群协同方法，该方法具有可靠性高、鲁棒性强等优点。具体步骤如下：

步骤1：POMDP模型参数的设定。首先对信念空间S进行状态定义，可用一个集合表示为：{S₀，S₁，S₂……S_n}；然后基于状态个数定义一个观察集合O＝{o_i|i＝1,2,3…n}，对于完全可观测的MDP，无人集群的观察结果是确定的，即O＝S，但是在弱观测条件下，POMDP模型中的O是对S的部分跟踪和近似，观察到的状态不确定，其中观察和状态之间的转换关系需要定义一个观察函数，其计算公式表示为：

O(s′,a,o)＝P(o|s′,a) (1)

该公式表明无人集群采取一个动作a后，在下一个状态s′时观察到o的概率。

另外，由于环境的复杂多变性、以及集群成员个体性能受限，使无人集群对环境的感知不完全确定。因此POMDP中，只能通过观察得到系统所在状态的不完全的信息，不能够完全描述系统的状态。决策选择行动时需要考虑初始状态、所有的观测结果和已采取的行动序列，即需要参考所有的历史信息。这些历史信息可以用信念状态(Belief State)来描述。因此，需要初始化一个信念状态b₀＝{b₁,b₂…b_n}，该信念状态是一个概率值的分布集合，且所有概率值之和为1，在这个意义上信念状态是行动策略选择时的充分统计量，它描述的是所有状态的概率分布，是根据观测结果和已采取的行动而对系统状态的一种估计。

步骤2：将无人集群的总任务按照分层强化学习思想进行分层。本发明采用基于值函数分解的分层强化学习学习算法(MAXQ)算法的分层思想进行训练学习。首先将一个马尔可夫决策过程M分解成多个子任务{M₀，M₁，M₂，M₃……M_n},M₀为根子任务，M₀和其余子任务M_i形成分层结构，解决了M₀就意味着解决了原问题M。对于每一个子任务M_i,都有一个终止断言T_i和一个动作集合A_i。这个动作集合中的元素既可以是其他的子任务,也可以是一个智能体可直接执行的动作。执行一个子任务M_i的目标是转移到一个状态,可以满足终止断言,使得此子任务完成并得到回报值，体现出此任务的优劣。

步骤3：为无人集群进行动作集的定义。由于通过分层强化学习框架进行训练学习，所以划分的动作集包含原始动作和选择子任务两种动作。其中原始动作定义为无人集群中的单个个体或整个集群所能一步完成的实际动作，而选择子任务的动作定义为选择一个组合任务，该组合任务不能立即执行，需要对其进行若干次递归调用，直到选择了原始动作。

步骤4：设定完成某个任务的立即回报值；设定回报值时应充分考虑无人集群的训练目的和实现目标，确保无人集群在每一次完成一个任务后，得到的奖赏和惩罚能够体现当前所选策略的优劣，对集群具有指导作用，从而经过多轮的训练学习，使无人集群找到一套符合期望的状态动作集。当子任务M_i是原子任务时，得到一个对应于原子任务的动作的立即回报值，若此动作符合人们的预期，则得到一个比较大的回报，反之得到一个小的回报值；当选择的是组合任务时，其回报值计算为一个有限步的累加数值，此步数从选择此组合任务开始计数，直到此任务结束。

步骤5：设定探索率。为确保在多种策略中，通过试错的方式找到最佳方案，在强化学习训练过程中需要设定一定的探索率，使系统能够随机的探测到任一信念状态，避免陷入局部最优求解过程，忽略没有选择过的更优动作，更加符合实际情况中的复杂性，训练结果也更精确。

步骤6：设定值函数计算公式。相对于立即回报函数这种即时的衡量方式，值函数是一种长期的衡量方式。值函数就是从当前的状态开始到将来的某个状态下的累计奖励值，它是一种从当前状态开始到所有可能的状态的长期满意度的衡量。强化学习的最终结果是找到一个环境到动作的映射—即策略π(a|s)。如果一个策略只考虑立即回报，那么很可能就会掉入局部最优陷阱。通常情况下，强化学习往往有具有延迟回报的特点，在很多情况下的动作产生的立即回报并不能反映这个策略的好坏，只有一系列动作的累积效果才能体现出其优劣，这与一个马尔科夫决策过程(MDP)非常相似。在几乎所有的强化学习理论中都会定义值函数来表示给定策略下期望的未来回报，并将值函数作为评估学习效果的指标。

本发明中基于POMDP框架，结合MAXQ分层强化学习算法对任务进行策略迭代优化。首先把一个给定的POMDP的根任务M分解为一个有限的子任务集{M₀，M₁，M₂……M_n}。每个子任务M_i为一个三元组

T_i(s)是一个终止谓语，它把状态空间分成活动状态S_i和终止状态T_i两部分，只有当状态s∈S_i时，子任务M_i的策略才可以执行。A_i是完成子任务M_i所要执行的动作的集合，这些动作既可以是动作原语，也可以是其他子任务。

是伪报酬函数，其为每个转移到终止状态的转移制定了伪报酬值。M中的每个基本动作j就是MAXQ分解结构中的一个原子任务，j总是可立即执行的，并且执行后立即得到一个回报值。

对于给定的任务集合{M₀，M₁，M₂……M_n}和分层策略π，每个子任务M_i，根据当前的信念状态，定义了一个行动集A_i、信念状态转移概率函数P_i ^π(b(s′),N|b(s),j)以及期望报酬函数R(i,b(s))＝V^π(i,b(s))的SMDP。其中V^π(i,b(s))是在信念状态b(s)下，子任务M_i的状态值函数。如果M_i是原子任务，原子任务单步执行后立即结束，那么V^π(i,b(s))就是在信念状态b(s)下执行动作后的立即回报值：

如果M_i是组合任务，根据π_i选择的第一个子任务是j。而该子任务被调用，并且执行N步以后以P_i ^π(b(s′),N|b(s),j)的概率在信念状态b(s′)终止，那么状态值函数为：

其中γ是折扣因子。

设Q^π(i,b(s),j)是在信念状态b(s)下根据策略π执行动作j后，直至子任务M_i终止的子任务M_i的期望累计报酬。行动j既可以是基本动作，也可以是另一个子任务。则Q^π(i,b(s),j)可表示为：

为简化公式，增加一个完成函数C^π(i,b(s),j)，其意义是在信念状态b(s)下，执行子任务M_j后到完成M_i的期望折扣累计报酬，从子任务M_i开始执行的时间点开始计算折扣报酬值。

根据此定义，公式(4)可以表示为：

Q^π(i,b(s),j)＝V^π(j,b(s))+C^π(i,b(s),j) (6)最终，V^π(i,b(s))可以定义为：

步骤7：对信念空间进行扩展。该过程是基于第1步中设定的初始信念状态，对信念状态进行更新。由于在信念空间中距离较近的信念状态值函数计算结果相近，没有对比意义，因此为简化计算过程，更新过程中，淘汰相近的信念状态，从而使信念空间更具代表性。

步骤8：基于POMDP模型的分层强化学习框架以及所有的参数定义完成之后，开始训练。将每一次训练的结果(即状态动作值)记录入Q表中，经过多轮训练，表格逐渐趋于收敛，无人集群的运行效果越来越接近期望效果，当值函数前后两次的计算结果差值达到预定的可接受误差范围内时，即可停止训练。

步骤9：验证分析训练学习效果。将POMDP模型下的分层强化学习框架中的探索率设为零，使无人集群采用训练完成的策略运行。

实施例1：

1.在POMDP模型中，信念状态描述的是状态空间S中所有状态的概率分布，是根据观测结果和已采取的行动而对系统状态的一种估计，所有可能的信念状态的集合称为信念空间。用b：S→[0,1]来表示信念状态，某一状态S的信念状态表示为b(s)，并且满足：

这样就可以采用信念状态—动作的映射函数来作为策略的表示方式，同理策略可以根据当前的信念状态来确定要执行的动作。在每一个决策阶段都需要根据上一次的动作和观察来更新信念状态，新的信念状态b′计算如下：

公式(8)的意义在于：给定一个隐状态集合S上的概率分布b(s)，系统执行a动作，系统转移到状态s′的概率由分子求和项部分计算。但在新观察o的约束下，分子乘上观察函数以确定在s′状态的置信度，分母事实上是归一化项。

对于无人集群中的任一单体，计算其状态时，首先根据该智能体的速度V和距离目标点的距离L，计算出其到达拦截位置的时间，同理计算出其他智能体的时间，然后让当前智能体与其余各个智能体的时间相比较，若当前智能体能最快到达目标点，如果它比最慢到达的快0至1秒，设为状态‘1’，快1到3秒，设为状态‘2’，快3秒以上，设为状态‘3’；若当前智能体不能最快到达目标点，如果它比最快到达的慢0至1秒，设为状态‘4’，慢1到3秒，设为状态‘5’，慢3秒以上，设为状态‘6’。这六个状态组成整个环境空间的状态集。然后定义和状态个数相同的观察集，观察集中每一个观察是对状态集的中每一个状态的估计和近似，并不保证观察到结果是确定的状态。然后随机初始化一个信念状态，保证信念状态中各个概率值之和为1，观察和信念状态之间的关系通过观察函数确定。

2.将无人集群总任务进行分层，如图一所示。Root任务为实验的根任务，是在无人集群检测到目标时，进行任务分配，派出无人集群中的个别智能体前去拦截目标。根任务选取子任务时根据子任务的Q值进行选择，根任务下一层分为两个子任务，第一个是“形成队形”任务，这一层的任务的目的是为选派出若干的智能单体指定各自到达的队形位置点，形成初始拦截队形，为其他子任务做准备；第二个是“收缩队形”任务，各个单智能体在完成“形成队形”任务后，形成初步拦截队形后，按照策略收缩队形，最终对目标进行成功拦截。为充分验证执行任务的协同效果，本实验中无人集群分别在两侧派出三个和四个智能体前去拦截。

3.计算立即回报值。根据公式V^π(j,b(s))＝γ∑_s′P(b(s′)|b(s),i)R(b(s′)|b(s),i)计算立即回报值，设定状态转移概率为1，该公式可化简为V^π(j,b(s))＝∑_s′R(b(s′)|b(s),i)，同时要保证设定的立即回报值即R(b(s′)|b(s),i)，能够体现出每一个动作原语的优劣。实验中首先计算各个集群单体到达目标点的时间的和，然后计算平均值，再将每一个单体的到达时间与该平均值做差，最后取该差值的绝对值的相反数作为立即回报，这样回报值越大，表明当前智能体与整体系统的到达时间的一致性越好，反之回报值越小，表明一致性越差，使此回报值能够有效的体现出选取动作的优劣，并且指导后序选取动作按照回报值大的动作进行选取。

4.设定无人集群训练的探索率为0.15，确保系统在训练的过程中，即使在按照选取最大Q值的策略下，依然能有15％的概率探索未知的动作，避免遗漏效果更好的动作。

5.对信念空间进行扩展，设定扩展次数为500次；信念状态更新公式如公式(8)所示；并且结合POMDP模型的近似计算思想，在扩展过程中根据距离公式判断某一信念状态与信念空间的距离，淘汰小于设定值之内的信念状态，计算一定空间范围的近似值函数，从而简化计算过程，加快训练收敛速度。

6.计算值函数。值函数是一种从当前状态开始到所有可能的状态的长期满意度的衡量，通过值函数可以评定出在某种状态下采取一个策略的好坏。强化学习的最终结果就是找到一个环境到动作的映射—即策略π(a|b(s))。在所有的强化学习理论中都会定义值函数来表示给定策略下期望的未来回报，并将值函数作为评估学习效果的指标。MAXQ分解采用抽象机制，把一个给定的无人集群的根任务M，按照第二步的方法分解为一个有限的子任务集{M₀，M₁，M₂，M₃……M_n}。然后根据值函数公式计算被选到的任务。若当前状态下选取的是原始任务，如对集群的加减速任务，那么V^π(j,b(s))＝∑_s′P(b(s′)|b(s),i)R(b(s′)|b(s),i)就是对此原始任务的立即回报计算公式，其中本实验将状态转移概率P(b(s′)|b(s),i)设为1，表明每一次选取的原始动作都能使智能体以100％的概率执行，R(b(s′)|b(s),i)为执行某一确定动作后的立即回报值；若当前状态下选取的子任务为组合任务，则值函数公式为Vπ(i,s)＝Q^π(i,s,π_i(s))，i为选定的任务。其中Q^π(i,s,π_i(s))＝V^π(π_i(s),s)+C^π(i,s,π_i(s))，而

为完成函数。以上公式中的s都为POMDP模型中的定义的信念状态b(s)。

通过多次的训练，无人集群的值函数的计算值会趋于收敛，相邻轮次训练值的差值缩小到一个可接受的误差范围内，停止训练。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。