CN111340324B

CN111340324B - 基于顺次分配的多层多粒度集群任务规划方法

Info

Publication number: CN111340324B
Application number: CN201910913739.4A
Authority: CN
Inventors: 王维平; 李小波; 李童心; 王涛; 周鑫; 段婷; 井田; 王彦锋; 黄美根
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2022-06-07
Anticipated expiration: 2039-09-25
Also published as: CN111340324A

Abstract

本发明公开了基于顺次分配的多层多粒度集群任务规划方法，包括多层降维信念信息表示、层间信息交互模型和在线预测函数的顺序分配，所述多层降维信念信息表示为建立统一巡逻模型，所述层间信息交互模型中每一层无人机关注的信息粒度是不同的，但具有一定对应关系，且每一层无人机间的对应关系为主要包括自底向上的信念信息传输和自顶向下的命令信息传输；所述在线预测函数的顺序分配为基于近视调度算法，所述近视调度算法包括基于启发式函数的单无人机巡逻、基于顺次分配技术的子群巡逻和集群巡逻的集中调度。本发明能够在复杂的情况下更好的实现对无人机集群连续侦察的任务规划，有利于进行推广运用。

Description

基于顺次分配的多层多粒度集群任务规划方法

技术领域

本发明涉及无人机集群控制技术领域，尤其涉及基于顺次分配的多层多粒度集群任务规划方法。

背景技术

无人机集群近年来发展迅速，特别是具有侦察能力的无人机集群，正在成为态势感知的常用手段。我们考虑这样一个情景：无人机集群不断地侦察一片区域，尽可能多地收集态势信息。这在现实中很常见，例如搜索山区失踪的游客、侦察战场环境、获取灾情信息和巡逻植保等等。在这些地区，环境是动态变化和不确定的，且每架无人机只能获取当前时刻的局部信息。换句话说，环境是部分可观察的。因此，难点在于如何进行任务规划，使无人机集群到信息值最大的地方采集信息。

对于动态和不确定的环境，马尔可夫链是目前使用的最广泛的方法之一。例如，有研究者将地面目标建模为两状态马尔可夫链，或者将侦察环境建模为K状态马尔可夫链，也有研究者使用马尔可夫链来表示目标的隐藏运动。根据这些模型，我们假设侦察环境随K状态马尔可夫链变化。目前，大多数关于无人机集群侦察问题的可计算算法是单层控制结构。例如，有研究者引入三种方法来解决具有集中控制结构和分散控制结构的多无人机系统的协同任务规划，有研究者提出了一种在动态和不确定环境中进行单层多无人机系统侦察的任务规划方法。因此，为了有效地管理大规模多无人机系统，建议使用层次结构控制结构来降低复杂性。有许多框架可以解决侦察任务规划问题，部分可观察马尔可夫决策过程是最常见的框架之一。但是，随着无人机数量的增加，可能的行动数量将呈指数增长，一些基线算法，如部分可观察蒙特卡罗计划，很难解决我们的问题。为此，我们提出了一种基于顺次分配的多层多粒度集群任务规划方法。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的基于顺次分配的多层多粒度集群任务规划方法。

为了实现上述目的，本发明采用了如下技术方案：

基于顺次分配的多层多粒度集群任务规划方法，包括多层降维信念信息表示、层间信息交互模型和在线预测函数的顺序分配，

所述多层降维信念信息表示为建立统一巡逻模型，每一层都可以看作是独立的侦察问题，即将每一层的侦察都抽象为部分可见的马尔科夫决策过程模型，即<S,A,O,δ,Ω,R,B>；描述如下：

为该层所有无人机联合状态集合，包括位置状态和信息状态，定义为

是当前系统状态，包括V和S，V是Agent的位置状态，S是环境信息状态，一个联合位置状态定义为

联合信息状态定义为

其中U为该层无人机的数量，|V|为该层所有顶点数量，每个顶点的信息状态属于I_k∈[I₁,I₂,...,I_K]；

为该层所有无人机联合行动集合，一个联合行动定义为

为该层所有无人机联合观测集合，一个联合观测定义为

为该层环境所有无人机的联合状态转移函数集合，定义为

主要包括两类转移：位置转移状态函数和信息状态转移函数，其中，

对于某无人机k,k∈U，其位置状态转移函数公式如下，其中v_goal表示无人机执行行动后的目标位置；

对于某顶点v,v∈|V|，其信息状态转移函数公式如下，其中s_goal表示状态更新后的目标状态；

为该层环境所有无人机的联合观测函数，

对于某无人机k,k∈U，其观察函数如下：

为该层环境所有无人机的联合回报函数，

总回报函数等于该层所有无人机回报值之和，具体公式如下：

为该层环境的信念信息向量，由于环境是部分可见的，因此无人机侦察到的环境为一种概率分布，因此假设一层中顶点都是独立演化的，在这样的假设条件下，环境的降维信息信念可以描述为如下公式：

其中，

表示在t时刻节点v_n的信息状态是I_k时的条件概率；

所述层间信息交互模型中每一层无人机关注的信息粒度是不同的，同的，但具有对应关系，且每一层无人机间的对应关系为自底向上的信念信息传输和自顶向下的命令信息传输；

所述在线预测函数的顺序分配为基于近视调度算法，所述近视调度算法包括基于启发式函数的单无人机巡逻、基于顺次分配技术的子群巡逻和集群巡逻的集中调度。

优选的，所述信念信息传输指上层环境中顶点的信念信息与下层环境中顶点的信念信息的对应关系，并用B^h(t)＝Θ_b(B^l(t))表示上层信息信念向量B^h(t)与下层信念B^l(t)的关系。

优选的，所述命令信息传输指无人机的行动在上层环境和下层环境中的对应关系，用a^l(τ)＝Θ_a(a^h(t^h))表示行动，其中a^l(τ)表示下层Agent在τ时刻的行动，表示上层Agent的行动，(t^h)表示上层Agent的时间。

本发明提出的基于顺次分配的多层多粒度集群任务规划方法，有益效果在于：本方案在进行运用的过程中，能够在复杂的情况下更好的实现对无人机集群连续侦察的任务规划，进而实现了有效地管理更多的无人机，且随着无人机层数的增加，本方案能够保证低约束性能，而不会增加任何决策者在进行任务规划过程中的计算复杂度，有利于推广运用。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

基于顺次分配的多层多粒度集群任务规划方法，包括多层降维信念信息表示、层间信息交互模型和在线预测函数的顺序分配。

联合信息状态定义为

为该层所有无人机联合行动集合，一个联合行动定义为

为该层所有无人机联合观测集合，一个联合观测定义为

为该层环境所有无人机的联合状态转移函数集合，定义为

为该层环境所有无人机的联合观测函数，

对于某无人机k,k∈U，其观察函数如下：

为该层环境所有无人机的联合回报函数，

其中，p_Ik(t)表示在t时刻节点v_n的信息状态是I_k时的条件概率，即

是最优策略的充分统计量，通过不同节点的独立状态，我们可以把充分统计状态从K^|V|减少为K·|V|。这极大减少了寻找最优侦察策略的计算和存储复杂度。

为了预测环境的态势信息，那么无人机需要预测环境信息信念向量，信息信念向量更新如下公式所示：

所述层间信息交互模型中每一层无人机关注的信息粒度是不同的，但具有对应关系，且每一层无人机间的对应关系为自底向上的信念信息传输和自顶向下的命令信息传输。

所述信念信息传输指上层环境中顶点的信念信息与下层环境中顶点的信念信息的对应关系，并用B^h(t)＝Θ_b(B^l(t))表示上层信息信念向量B^h(t)与下层信念B^l(t)的关系，上层信念信息是对下层信念信息的提炼，在扩展上层无人机决策范围的同时，需要避免信息爆炸，由于下层一个区域块对应上层一个顶点，因此Θ_b(·)是多个信息对一个信息映射，那么一个比较恰当的方法就是均值滤波法，均值滤波法能够体现区域块信息的整体特征，具体公式如下：

其中N为区域块中的顶点数量，

表示下层环境中顶点

处于信息等级I_k的概率，

表示区域块对应的上层环境顶点v^h处于信息等级I_k的概率。

所述命令信息传输指无人机的行动在上层环境和下层环境中的对应关系，用a^l(τ)＝Θ_a(a^h(t^h))表示行动，下层无人机需要执行上层无人机的命令，上层无人机的命令是粗粒度的，且当无人机子群活动只限于以上层无人机为中心的正方形区域块中，因此下层无人机在满足上层无人机的基础上，需要做出具体的决策，上层无人机命令信息如下所示：

定义

对于基于启发式函数的单无人机巡逻，为将无人机u_k的D步预期策略表示为

其中包含了D个连续的可执行动作，进一步的定义策略

的启发式信息，即执行

的预测性期望回报值，

其中，

是无人机u_k在时间t+i对某顶点的预测信息信念向量，

的可以通过下面的转移函数更新，

其中，Λ_i表示第i个元素为1的单位向量，Λ₁＝[1,0,...,0].v_goal表示无人机u_k访问的目标顶点，v_k表示某顶点。

最后比较最大的

则选取该执行方案。

对于基于顺次分配技术的子群巡逻，具体为一个子群领机为其下无人机做出决策时，根据子群决策的顺序分配方法进行计算，计算内容为：首先，基于启发式函数计算第一个无人机的近视策略，然后计算第二个无人机的近视策略，以此类推，在具体的t时刻第k个无人机未来D步策略π(t)的期望值由当前位置、信念向量和之前集群中已计算出的贪婪策略

有关，从而多子群侦察监视中，第k个子群领机的最佳策略递归求解如下：

其中，

表示第k个无人机的最优D步策略t∈[t,t+D-1]，这时会出现同步访问和异步访问问题，对于同步访问，也就是不同无人机在同一时刻访问同一顶点，采用的方法是，最先负责访问该顶点的无人机能够获取该点信息；对于异步访问问题，是第i个无人机决定t₁时刻访问顶点v时，而第j(i<j)个无人机已经在t₂(t₂<t₁)时刻访问了该顶点，此时可以看到，无人机j访问顶点v的期望值被过高估计了，因为它没有估计到无人机i已经决定要访问该顶点，因此需要引入惩罚因子，用于惩罚无人机j多计算出来的预期回报值，设定p是无人机i在无人机j访问顶点v^h的损失。r_expected为不考虑无人机j时，无人机i访问顶点v的期望回报值；r_revised为考虑无人机j时，无人机i访问顶点v的期望回报值，那么，p＝r_expected-r_revised.如下：

其中

对于集群巡逻的集中调度，其目标是找到所有层中所有无人机的策略，其中将第L层设置为顶层、IGA为信息收集算法的简称、SPSA为集群巡逻的集中调度的简称、TPA为任务规划算法的简称、SAM为顺序分配方法的简称：策略的算法过程中如下，

综上所述：本发明在进行运用的过程中，能够在复杂的情况下更好的实现对无人机集群连续侦察的任务规划，进而实现了有效地管理更多的无人机，且随着无人机层数的增加，本发明能够保证低约束性能，而不会增加任何决策者在进行任务规划过程中的计算复杂度，有利于推广运用。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。