CN110727291B

CN110727291B - 基于变量消元的集中式集群侦察任务规划法

Info

Publication number: CN110727291B
Application number: CN201910912548.6A
Authority: CN
Inventors: 王维平; 周鑫; 王涛; 朱一凡; 李小波; 井田; 李童心; 段婷; 王彦锋; 黄美根
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2022-08-05
Anticipated expiration: 2039-09-25
Also published as: CN110727291A

Abstract

本发明公开了基于变量消元的集中式集群侦察任务规划法，包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法。本发明提出的任务规划法在进行运用的过程中，能高于传统算法所得到的平均回报值，进而有利于进行推广应用。

Description

基于变量消元的集中式集群侦察任务规划法

技术领域

本发明涉及任务规划技术领域，尤其涉及基于变量消元的集中式集群侦察任务规划法。

背景技术

在很多动态不确定的环境中，例如地震、火灾和洪涝灾害，人们需要实时的和最新的态势信息以便有效地决策和提供救援支持。因此，许多研究者建立了灾难响应系统。首先，灾难响应系统获取关于受灾区域的先验信息并进行预处理，如天气预报、卫星图像等。这是一个十分痛苦的过程，特别地信息中可能具有延时、噪声、偏差和错误。其次，灾难响应系统根据先验信息做出应急响应决策。灾难响应系统通常是采用OODA(Observe-Orientate-Decide-Act)框架的分层组织，将决策分为战略层、战术层和操作层面。每层的视角和关注对象是不同的。层与层之间紧密联系的，主要包括自顶向下的命令流和自底向上的信息流。战略层决策者关注于应急响应工作的使命目标；根据战略层制定的使命目标，战术层决策者规划任务区域，并分配无人机；在操作层，操作员具体操作无人机完成，以上项目及工作都需要做出任务规划，而传统的方法在进行任务规划并根据任务规划进行实行时存在着平均回报值较低的情况，为此，我们提出了一种基于变量消元的集中式集群侦察任务规划法。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的基于变量消元的集中式集群侦察任务规划法。

为了实现上述目的，本发明采用了如下技术方案：

基于变量消元的集中式集群侦察任务规划法，包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法。

优选的，所述集中式集群侦察问题描述包含物理环境模型和无人机模型。

优选的，所述集中式在线路径规划算法包括在线规划算法和集中式集群协作算法。

本发明提出的基于变量消元的集中式集群侦察任务规划法，有益效果在于：本方案提出的任务规划法在进行运用的过程中，能高于传统算法所得到的平均回报值，进而有利于进行推广应用。

附图说明

图1为本发明的信息状态示意图；

图2为本发明的Agent及巡逻区域示意图；

图3为本发明的12个Agent巡逻合作图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

参照图1-3，基于变量消元的集中式集群侦察任务规划法，包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法。

所述集中式集群侦察问题描述包含物理环境模型和无人机模型，针对物理环境模型，物理环境的特点是由其时空特性决定的，环境的空间特性被编码为布局图，时间特性编码为离散时步，并做出如下定义：

定义1、布局图形，布局图形被定义为嵌入在欧几里得空间中一个无向图形，记为G＝(V,E)，其中，V表示空间顶点集合，E表示边集合，布局图形G中顶点的个数为|V|，在灾难响应情景中，一个点代表了人们感兴趣重要区域，比如小区、绿地和工厂等，捕获两个顶点之间可穿越的区域为边，即Agent移动的路径。

定义2、时间，时间被编码为等步长的离散时步，记为t∈{0,1,2,...}。

在每个时步中，环境信息发生一次变化，Agent完成一次观测、决策和行动，一个时步对应于的时间是由实际情景决定的，如果无人机能在10分钟内到达目标区域，并完成一次信息收集，那么一个时步可以设定为10分钟，且将感兴趣的环境信息特征为离散的信息状态，信息状态附着于布局图中的每个顶点上。

定义3、信息状态：信息状态表示了布局图中顶点的信息含量。

信息状态包含信息状态等级和信息状态值，分别定性地和定量地表示信息量，信息状态等级集合记为I＝{I₁,I₂,...,I_N}，其中I_n表示第n种信息等级，N为信息等级的数量，对应于信息状态等级，信息状态值集合记为F＝{F₁,F₂,...,F_N}，通过信息值函数建立两者的联系，F＝f(I)；且设定如果n越大，那么信息状态等级I_n具有更高的价值。因此，信息值函数是单调非递减的，即F₁≤F₂≤…≤F_N。

定义4、信息状态值函数、：信息状态值函数定义为一个集合函数

将信息值赋予信息状态等级，信息值函数编码有关环境时空特性先验已知的任何信息，例如被监测现象的类型，和现象变化的速度，该定义确保了模型的一般性，因为它可以根据环境特点而显着变化；在捕获环境的动态变化性为多状态Markov链，针对环境信息变化的条件，即假设所有顶点的信息状态的变化服从独立的、离散时间的多状态Markov链，具体地，信息状态转移矩阵如公式(1)所示。

其中，p_ij表示信息状态I_i转移到信息状态I_j的概率，在派遣无人机巡逻之前，先从不同的渠道获取环境的先验信息，如天气预报、地图和卫星图像等，根据先验信息，通过机器学习技术构造关于信息状态转移矩阵的统计模型，在假设信息值状态转移矩阵P是已知的，进而有助于获取初始的Agent调度，在获得了精确的先验信息并得到了新的统计模型下，使得在线规划算法能够根据新的统计模型重新调整Agent的调度计划。

针对无人机模型，做出如下定义：

定义5、信息收集Agent：信息收集Agent是无向图形G中的可移动自主实体，指导他们的活动收集信息，目的是提供准确和最新的态势感知，在任一时步t，所有Agent都在无向图形G中的某一顶点上，多个Agent能够同时占用同一个顶点。

定义6、巡逻区域：每个Agent m_i∈M在一个预先设定的区域内收集信息，记为

M为所有Agent的集合、不同Agent的巡逻区域之间是可以相互重叠的。

Agent m_i在子图形G_i中的点和边上移动，其移动是原子的，也就是说，移动发生在两个前后相连的时步之间，在任意一个时步内，Agent m_i能够从某个顶点v∈V_i移动到其邻近顶点

如图2所示。

定义7、邻居：针对与Agent m_i巡逻区域有交集的Agent的集合为其邻居，记为

邻居Agent的行动能够影响该Agent的行为，当Agent移动到某顶点时，Agent能够自动收集该顶点的信息，收集信息的时间是忽略不计的，同时，该顶点的信息状态等级将会重置为I₁，表示没有新信息的状态。

针对所述基于MPOMDP的集中式集群侦察问题建模，将其描述为<M,S,A,O,δ,Z,R,D,B>。

(1)M＝{m₁,m₂,...,m_|M|}表示所有Agent的集合，其中Agent的数量记为|M|，Agentm_i∈M在其预先设定的区域内

中执行任务，Agent m_i的邻居记为

且设定Agent m_i也属于其邻居集合，即m_i∈Ne_i。

(2)S为联合状态集合，从不同维度看，状态可以因子分解为多个状态特征，且将状态分解为Agent的位置状态和顶点的信息状态，定义为S＝[S^V,S^I]。

(3)A＝[A₁,A₂,...,A_|M|]为联合行动集合，记为A＝_×iA_i，一个联合行动定义为a∈A，Agent m_i的行动记为a_i∈A_i，Agent mi及其邻居Agent的行动集合记为

Agentm_i的行动a_i包括从当前位置v出发移动到邻居顶点

的动作，且设定顶点v本身也属于其邻居

(4)O＝[O₁,O₂,...,O_|M|]为联合观测集合，记为O＝_×i O_i，其中，一个联合观测定义为o∈O，Agent m_i的观测记为o_i∈O_i，且设定所有Agent的位置状态是完全可观的，此外，Agent m_i能够观察到其当前时刻所处位置的信息状态。

(5)δ为联合状态转移概率集合，包括联合位置状态转移概率和联合信息状态转移概率，定义为

其中，Agent m_i的信息状态转移概率

服从离散时间的Markov过程(见公式1)，而其位置状态转移概率

不仅由Agent自身决定，还受其邻居Ne_i的影响，如公式(2)所示：

其中，

表示Agent行动的目标位置，公式(2)表示，如果确定了下一时刻Agent的位置状态，那么Agent将到达该状态。

(6)Z为联合观测转移概率集合，定义为

是执行动作

并得到状态s_i后得到观测值o_i的概率，根据上文的描述，观测值o_i等于当前时刻的其邻居Ne_i的位置状态

和Agent m_i所处位置的信息状态

如公式(3)所示：

(7)R为可分解全局回报函数，全局回报函数等于所有Agent回报之和，记为

为Agent m_i在状态s_i下执行

所得的回报值，Agent m_i的局部回报函数如公式(4)所示：

其中，n_i表示与Agent m_i同时访问顶点v时Agent的个数，I_i为Agent m_i当前时刻当前位置的信息等级。公式(4)表示多个Agent访问同一个顶点的效果等价于一个Agent的访问效果。

(8)D表示规划步长。

(9)B表示信念，是设计最优策略的充分统计量，包括位置状态信念和信息状态信念，记为B＝[B^V,B^I]，根据公式(2)，位置状态是完全可观的，因此主要聚焦于信息状态信念，即所有顶点的信息状态是独立变化的，顶点的信息状态信念能够被因式分解更为简洁的信念表示，如公式(5)所示：

不失一般性，任意顶点v_i的信息状态信念向量为

且

其中，

表示在t时刻节点v_i的信息状态是I_n时的条件概率，信念中的信息状态数量从N^|V|减少为N·|V|，因此极大减少了寻找最优策略的计算和存储复杂度，进一步通过更新信息状态信念预测信息状态的变化趋势，记为B(t+1)＝T(B(t))，其中，对于环境中任意顶点v_i，信息状态信念更新公式(6)所示：

其中，Λ为第一个元素为1的单位向量，v′表示当前时刻被任意Agent访问的顶点。

所述集中式在线路径规划算法包括在线规划算法和集中式集群协作算法，进一步的对基于变量消元的在线动态规划算法进行剔除，且每个Agent选择其行动Agent的目标是计算最优策略π＝[π₁,π₂,...,π_|M|]以最大化全局值函数B_i(h_i)，根据上述，R为可分解全局回报函数，即全局值函数可以被因子化为公式(7)：

其中，

为“行动-观测”历史。

针对在线规划算法，将全局前瞻树分解为多个局部前瞻树，每个Agent都拥有一个局部前瞻树，对于松耦合的多Agent系统，该分解将极大减少前瞻树的分支数，能够将蒙特卡洛树推广至更大规模Agent的MPOMDP，此外，在决定行动时等待邻居Agent并协同行动，以便得到全局最优策。

具体而言，每个Agent都从Search程序开始执行算法1；在不失一般性，以Agent m_i为例进行介绍，在Search程序中，根据Agent m_i的局部信念B_i(h_i)多次采样，并在采样结束后与其它Agent协同行动，其中，根据公式(3)，Agent m_i的观测值为当前时刻的状态，根据公式(2)，位置状态的转移是确定的，而信息状态则体现在回报值中，这减少了前瞻树的分支数，在Simulation程序中，如果h_i是新节点，那么对该节点进行初始化，执行Rollout程序；初始化的参数包括，节点

的初始次数

初始值函数

和信念

其中，信息状态信念

根据公式(6)更新；而当Agent的行动确定后，位置状态信念

也是确定的，反之，在同步行动后，仿真器G对状态s_i进行采样，并嵌套执行Simulation程序直至到达规划步长，且由于每个前瞻树可能位于不同深度，此时需要通过全局变量flag记录当前协同的深度；当depth<flag时，根据存储的临时策略集π_temp选取当前深度的动作a^*；且能够影响agent m_i状态是仅为其邻居Agent的行动

此外π_temp初始值为

flag初始值为0，在Rollout程序中，通过随机仿真来评估潜在的长期回报值。

算法1.基于变量消元的在线任务规划算法

针对集中式集群协作算法，计算最大化R＝∑_iR_i的动作很棘手，因为需要枚举所有Agent的联合行动空间，其中通过合作图和利用R_i函数中的局部结构，可以非常有效地计算具有有限通信和可观察性的Agent的最优行动，且每个Agent m_i都有一个局部回报函数

局部回报函数Q_i受到Agent的行动及其邻居Agent行动的影响，如图3所示。

针对基于变量消减的集中式集群协作算法，变量消减法在于，不是同时考虑所有变量，而是一次只优化一个变量，当最大化行动变量a_i时，将与变量a_i有关的变量都囊括在内，如算法2所示，首先，等待所有Agent，直到所有Agent都进入程序；第二，根据每个Agentm_i∈M的前瞻树T_i(h_i)，采用置信度上限，对每个Agent的值函数

赋值，设定Q是值函数集合；第三，依次选择一个未消减的Agent m_i，求解行动集合

约束下Agent m_i的最优行动

设定C表示新值函数集合，

表示索引为i的新值函数，

表示影响C_i的行动集合，

表示

中除去a_i的行动集合，Ce_i表示C中包含行动a_i的索引集合。

中的元素包括了

j∈Ce_i和

k∈Ne_i中所有的元素，且

中每个元素是唯一的，即对任意a_l1,

l1≠l2，有a_l1≠a_l2；

是两类值函数之和，包含a_i的新值函数C_j,j∈Ce_i和与Agent m_i相连的Agent的值函数Q_k,k∈Ne_i；第四，在第三步计算完约束下的最优行动

m_i∈M后，通过反向遍历Agent m_i来计算所有Agent的最优行动集合a^*，最后，更新π_temp(depth)和flag变量。

算法2：集中式集群协作算法

在实施例1中，规划步长D为1的场景中，其平均回报值超出最优算法平均回报值的5.27％；在规划步长D为3的场景中，其平均回报值超出最优算法平均回报值的3.16％；在规划步长D为6的场景中，其平均回报值超出最优算法平均回报值的1.96％；在规划步长D为10的场景中，其平均回报值超出最优算法平均回报值的3.75％，因此使得整个任务规划法有利于进行推广运用。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于变量消元的集中式集群侦察任务规划法，其特征在于，包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法，所述集中式集群侦察问题描述包含物理环境模型和无人机模型；

针对物理环境模型，物理环境的特点是由其时空特性决定的，环境的空间特性被编码为布局图，时间特性编码为离散时步，并做出如下定义：

定义1、布局图形，布局图形被定义为嵌入在欧几里得空间中一个无向图形，记为G＝(V,E)，其中，V表示空间顶点集合，E表示边集合，布局图形G中顶点的个数为|V|，在灾难响应情景中，一个点代表了人们感兴趣重要区域，比如小区、绿地和工厂等，捕获两个顶点之间可穿越的区域为边，即Agent移动的路径；

定义2、时间，时间被编码为等步长的离散时步，记为t∈{0,1,2,...}；

在每个时步中，环境信息发生一次变化，Agent完成一次观测、决策和行动，一个时步对应于的时间是由实际情景决定的，如果无人机能在10分钟内到达目标区域，并完成一次信息收集，那么一个时步可以设定为10分钟，且将感兴趣的环境信息特征为离散的信息状态，信息状态附着于布局图中的每个顶点上；

定义3、信息状态：信息状态表示了布局图中顶点的信息含量；

信息状态包含信息状态等级和信息状态值，分别定性地和定量地表示信息量，信息状态等级集合记为I＝{I₁,I₂,...,I_N}，其中I_n表示第n种信息等级，N为信息等级的数量，对应于信息状态等级，信息状态值集合记为F＝{F₁,F₂,...,F_N}，通过信息值函数建立两者的联系，F＝f(I)；且设定如果n越大，那么信息状态等级I_n具有更高的价值；因此，信息值函数是单调非递减的，即F₁≤F₂≤…≤F_N；

定义4、信息状态值函数：信息状态值函数定义为一个集合函数f:

将信息值赋予信息状态等级，信息值函数编码有关环境时空特性先验已知的任何信息，例如被监测现象的类型，和现象变化的速度，该定义确保了模型的一般性，因为它可以根据环境特点而显着变化；在捕获环境的动态变化性为多状态Markov链，针对环境信息变化的条件，即假设所有顶点的信息状态的变化服从独立的、离散时间的多状态Markov链；

针对无人机模型，做出如下定义：

定义5、信息收集Agent：信息收集Agent是无向图形G中的可移动自主实体，指导他们的活动收集信息，目的是提供准确和最新的态势感知，在任一时步t，所有Agent都在无向图形G中的某一顶点上，多个Agent能够同时占用同一个顶点；

M为所有Agent的集合、不同Agent的巡逻区域之间是可以相互重叠的；

如图2所示；

邻居Agent的行动能够影响该Agent的行为，当Agent移动到某顶点时，Agent能够自动收集该顶点的信息，收集信息的时间是忽略不计的，同时，该顶点的信息状态等级将会重置为I₁，表示没有新信息的状态；

针对所述基于MPOMDP的集中式集群侦察问题建模，将其描述为<M,S,A,O,δ,Z,R,D,B>；

(1)M＝{m₁,m₂,...,m_|M|}表示所有Agent的集合，其中Agent的数量记为|M|，Agent m_i∈M在其预先设定的区域内

中执行任务，Agent m_i的邻居记为

且设定Agentm_i也属于其邻居集合，即m_i∈Ne_i；

(2)S为联合状态集合，从不同维度看，状态可以因子分解为多个状态特征，且将状态分解为Agent的位置状态和顶点的信息状态，定义为S＝[S^V,S^I]；

Agent m_i的行动a_i包括从当前位置v出发移动到邻居顶点

的动作，且设定顶点v本身也属于其邻居

(4)O＝[O₁,O₂,...,O_|M|]为联合观测集合，记为O＝_×iO_i，其中，一个联合观测定义为o∈O，Agent m_i的观测记为o_i∈O_i，且设定所有Agent的位置状态是完全可观的，此外，Agent m_i能够观察到其当前时刻所处位置的信息状态；

(6)Z为联合观测转移概率集合，定义为

是执行动作

和Agent m_i所处位置的信息状态

为Agent m_i在状态s_i下执行

所得的回报值；

(8)D表示规划步长；

(9)B表示信念，是设计最优策略的充分统计量，包括位置状态信念和信息状态信念，记为B＝[B^V,B^I]，位置状态是完全可观的，因此主要聚焦于信息状态信念，即所有顶点的信息状态是独立变化的，顶点的信息状态信念能够被因式分解更为简洁的信念表示；

所述集中式在线路径规划算法包括在线规划算法和集中式集群协作算法，进一步的对基于变量消元的在线动态规划算法进行剔除，且每个Agent选择其行动Agent的目标是计算最优策略π＝[π₁,π₂,...,π_|M|]以最大化全局值函数B_i(h_i)；

针对在线规划算法，将全局前瞻树分解为多个局部前瞻树，每个Agent都拥有一个局部前瞻树，对于松耦合的多Agent系统，该分解将极大减少前瞻树的分支数，能够将蒙特卡洛树推广至更大规模Agent的MPOMDP，此外，在决定行动时等待邻居Agent并协同行动，以便得到全局最优策；

针对集中式集群协作算法，计算最大化R＝Σ_iR_i的动作很棘手，因为需要枚举所有Agent的联合行动空间，其中通过合作图和利用R_i函数中的局部结构，可以非常有效地计算具有有限通信和可观察性的Agent的最优行动，且每个Agent m_i都有一个局部回报函数

局部回报函数Q_i受到Agent的行动及其邻居Agent行动的影响。