CN110727291A - 基于变量消元的集中式集群侦察任务规划法 - Google Patents

基于变量消元的集中式集群侦察任务规划法 Download PDF

Info

Publication number
CN110727291A
CN110727291A CN201910912548.6A CN201910912548A CN110727291A CN 110727291 A CN110727291 A CN 110727291A CN 201910912548 A CN201910912548 A CN 201910912548A CN 110727291 A CN110727291 A CN 110727291A
Authority
CN
China
Prior art keywords
agent
information
centralized cluster
centralized
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910912548.6A
Other languages
English (en)
Other versions
CN110727291B (zh
Inventor
王维平
周鑫
王涛
朱一凡
李小波
井田
李童心
段婷
王彦锋
黄美根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910912548.6A priority Critical patent/CN110727291B/zh
Publication of CN110727291A publication Critical patent/CN110727291A/zh
Application granted granted Critical
Publication of CN110727291B publication Critical patent/CN110727291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/12Target-seeking control

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于变量消元的集中式集群侦察任务规划法,包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法。本发明提出的任务规划法在进行运用的过程中,能高于传统算法所得到的平均回报值,进而有利于进行推广应用。

Description

基于变量消元的集中式集群侦察任务规划法
技术领域
本发明涉及任务规划技术领域,尤其涉及基于变量消元的集中式集群侦察任务规划法。
背景技术
在很多动态不确定的环境中,例如地震、火灾和洪涝灾害,人们需要实时的和最新的态势信息以便有效地决策和提供救援支持。因此,许多研究者建立了灾难响应系统。首先,灾难响应系统获取关于受灾区域的先验信息并进行预处理,如天气预报、卫星图像等。这是一个十分痛苦的过程,特别地信息中可能具有延时、噪声、偏差和错误。其次,灾难响应系统根据先验信息做出应急响应决策。灾难响应系统通常是采用OODA(Observe-Orientate-Decide-Act)框架的分层组织,将决策分为战略层、战术层和操作层面。每层的视角和关注对象是不同的。层与层之间紧密联系的,主要包括自顶向下的命令流和自底向上的信息流。战略层决策者关注于应急响应工作的使命目标;根据战略层制定的使命目标,战术层决策者规划任务区域,并分配无人机;在操作层,操作员具体操作无人机完成,以上项目及工作都需要做出任务规划,而传统的方法在进行任务规划并根据任务规划进行实行时存在着平均回报值较低的情况,为此,我们提出了一种基于变量消元的集中式集群侦察任务规划法。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的基于变量消元的集中式集群侦察任务规划法。
为了实现上述目的,本发明采用了如下技术方案:
基于变量消元的集中式集群侦察任务规划法,包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法。
优选的,所述集中式集群侦察问题描述包含物理环境模型和无人机模型。
优选的,所述集中式在线路径规划算法包括在线规划算法和集中式集群协作算法。
本发明提出的基于变量消元的集中式集群侦察任务规划法,有益效果在于:本方案提出的任务规划法在进行运用的过程中,能高于传统算法所得到的平均回报值,进而有利于进行推广应用。
附图说明
图1为本发明的信息状态示意图;
图2为本发明的Agent及巡逻区域示意图;
图3为本发明的12个Agent巡逻合作图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
参照图1-3,基于变量消元的集中式集群侦察任务规划法,包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法。
所述集中式集群侦察问题描述包含物理环境模型和无人机模型,针对物理环境模型,物理环境的特点是由其时空特性决定的,环境的空间特性被编码为布局图,时间特性编码为离散时步,并做出如下定义:
定义1、布局图形,布局图形被定义为嵌入在欧几里得空间中一个无向图形,记为G=(V,E),其中,V表示空间顶点集合,E表示边集合,布局图形G中顶点的个数为|V|,在灾难响应情景中,一个点代表了人们感兴趣重要区域,比如小区、绿地和工厂等,捕获两个顶点之间可穿越的区域为边,即Agent移动的路径。
定义2、时间,时间被编码为等步长的离散时步,记为t∈{0,1,2,...}。
在每个时步中,环境信息发生一次变化,Agent完成一次观测、决策和行动,一个时步对应于的时间是由实际情景决定的,如果无人机能在10分钟内到达目标区域,并完成一次信息收集,那么一个时步可以设定为10分钟,且将感兴趣的环境信息特征为离散的信息状态,信息状态附着于布局图中的每个顶点上。
定义3、信息状态:信息状态表示了布局图中顶点的信息含量。
信息状态包含信息状态等级和信息状态值,分别定性地和定量地表示信息量,信息状态等级集合记为I={I1,I2,...,IN},其中In表示第n种信息等级,N为信息等级的数量,对应于信息状态等级,信息状态值集合记为F={F1,F2,...,FN},通过信息值函数建立两者的联系,F=f(I);且设定如果n越大,那么信息状态等级In具有更高的价值。因此,信息值函数是单调非递减的,即F1≤F2≤…≤FN
定义4、信息状态值函数、:信息状态值函数定义为一个集合函数
Figure BDA0002215161150000042
将信息值赋予信息状态等级,信息值函数编码有关环境时空特性先验已知的任何信息,例如被监测现象的类型,和现象变化的速度,该定义确保了模型的一般性,因为它可以根据环境特点而显着变化;在捕获环境的动态变化性为多状态Markov链,针对环境信息变化的条件,即假设所有顶点的信息状态的变化服从独立的、离散时间的多状态Markov链,具体地,信息状态转移矩阵如公式(1)所示。
Figure BDA0002215161150000041
其中,pij表示信息状态Ii转移到信息状态Ij的概率,在派遣无人机巡逻之前,先从不同的渠道获取环境的先验信息,如天气预报、地图和卫星图像等,根据先验信息,通过机器学习技术构造关于信息状态转移矩阵的统计模型,在假设信息值状态转移矩阵P是已知的,进而有助于获取初始的Agent调度,在获得了精确的先验信息并得到了新的统计模型下,使得在线规划算法能够根据新的统计模型重新调整Agent的调度计划。
针对无人机模型,做出如下定义:
定义5、信息收集Agent:信息收集Agent是无向图形G中的可移动自主实体,指导他们的活动收集信息,目的是提供准确和最新的态势感知,在任一时步t,所有Agent都在无向图形G中的某一顶点上,多个Agent能够同时占用同一个顶点。
定义6、巡逻区域:每个Agent mi∈M在一个预先设定的区域内收集信息,记为
Figure BDA0002215161150000051
M为所有Agent的集合、不同Agent的巡逻区域之间是可以相互重叠的。
Agent mi在子图形Gi中的点和边上移动,其移动是原子的,也就是说,移动发生在两个前后相连的时步之间,在任意一个时步内,Agent mi能够从某个顶点v∈Vi移动到其邻近顶点
Figure BDA0002215161150000054
如图2所示。
定义7、邻居:针对与Agent mi巡逻区域有交集的Agent的集合为其邻居,记为
Figure BDA0002215161150000052
邻居Agent的行动能够影响该Agent的行为,当Agent移动到某顶点时,Agent能够自动收集该顶点的信息,收集信息的时间是忽略不计的,同时,该顶点的信息状态等级将会重置为I1,表示没有新信息的状态。
针对所述基于MPOMDP的集中式集群侦察问题建模,将其描述为<M,S,A,O,δ,Z,R,D,B>。
(1)M={m1,m2,...,m|M|}表示所有Agent的集合,其中Agent的数量记为|M|,Agentmi∈M在其预先设定的区域内
Figure BDA0002215161150000053
中执行任务,Agent mi的邻居记为
Figure BDA0002215161150000061
且设定Agent mi也属于其邻居集合,即mi∈Nei
(2)S为联合状态集合,从不同维度看,状态可以因子分解为多个状态特征,且将状态分解为Agent的位置状态和顶点的信息状态,定义为S=[SV,SI]。
(3)A=[A1,A2,...,A|M|]为联合行动集合,记为A=×iAi,一个联合行动定义为a∈A,Agent mi的行动记为ai∈Ai,Agent mi及其邻居Agent的行动集合记为
Figure BDA0002215161150000062
Agentmi的行动ai包括从当前位置v出发移动到邻居顶点的动作,且设定顶点v本身也属于其邻居
Figure BDA0002215161150000064
(4)O=[O1,O2,...,O|M|]为联合观测集合,记为O=×i Oi,其中,一个联合观测定义为o∈O,Agent mi的观测记为oi∈Oi,且设定所有Agent的位置状态是完全可观的,此外,Agent mi能够观察到其当前时刻所处位置的信息状态。
(5)δ为联合状态转移概率集合,包括联合位置状态转移概率和联合信息状态转移概率,定义为
Figure BDA0002215161150000065
其中,Agent mi的信息状态转移概率
Figure BDA0002215161150000066
服从离散时间的Markov过程(见公式1),而其位置状态转移概率
Figure BDA0002215161150000067
不仅由Agent自身决定,还受其邻居Nei的影响,如公式(2)所示:
Figure BDA0002215161150000068
其中,表示Agent行动的目标位置,公式(2)表示,如果确定了下一时刻Agent的位置状态,那么Agent将到达该状态。
(6)Z为联合观测转移概率集合,定义为
Figure BDA0002215161150000071
是执行动作
Figure BDA0002215161150000073
并得到状态si后得到观测值oi的概率,根据上文的描述,观测值oi等于当前时刻的其邻居Nei的位置状态
Figure BDA0002215161150000074
和Agent mi所处位置的信息状态
Figure BDA0002215161150000075
如公式(3)所示:
Figure BDA0002215161150000076
(7)R为可分解全局回报函数,全局回报函数等于所有Agent回报之和,记为
Figure BDA0002215161150000077
Figure BDA0002215161150000078
为Agent mi在状态si下执行
Figure BDA0002215161150000079
所得的回报值,Agent mi的局部回报函数如公式(4)所示:
Figure BDA00022151611500000710
其中,ni表示与Agent mi同时访问顶点v时Agent的个数,Ii为Agent mi当前时刻当前位置的信息等级。公式(4)表示多个Agent访问同一个顶点的效果等价于一个Agent的访问效果。
(8)D表示规划步长。
(9)B表示信念,是设计最优策略的充分统计量,包括位置状态信念和信息状态信念,记为B=[BV,BI],根据公式(2),位置状态是完全可观的,因此主要聚焦于信息状态信念,即所有顶点的信息状态是独立变化的,顶点的信息状态信念能够被因式分解更为简洁的信念表示,如公式(5)所示:
Figure BDA00022151611500000711
不失一般性,任意顶点vi的信息状态信念向量为
Figure BDA0002215161150000081
Figure BDA0002215161150000082
其中,
Figure BDA0002215161150000083
表示在t时刻节点vi的信息状态是In时的条件概率,信念中的信息状态数量从N|V|减少为N·|V|,因此极大减少了寻找最优策略的计算和存储复杂度,进一步通过更新信息状态信念预测信息状态的变化趋势,记为B(t+1)=T(B(t)),其中,对于环境中任意顶点vi,信息状态信念更新公式(6)所示:
Figure BDA0002215161150000084
其中,Λ为第一个元素为1的单位向量,v′表示当前时刻被任意Agent访问的顶点。
所述集中式在线路径规划算法包括在线规划算法和集中式集群协作算法,进一步的对基于变量消元的在线动态规划算法进行剔除,且每个Agent选择其行动Agent的目标是计算最优策略π=[π12,...,π|M|]以最大化全局值函数Bi(hi),根据上述,R为可分解全局回报函数,即全局值函数可以被因子化为公式(7):
其中,为“行动-观测”历史。
针对在线规划算法,将全局前瞻树分解为多个局部前瞻树,每个Agent都拥有一个局部前瞻树,对于松耦合的多Agent系统,该分解将极大减少前瞻树的分支数,能够将蒙特卡洛树推广至更大规模Agent的MPOMDP,此外,在决定行动时等待邻居Agent并协同行动,以便得到全局最优策。
具体而言,每个Agent都从Search程序开始执行算法1;在不失一般性,以Agent mi为例进行介绍,在Search程序中,根据Agent mi的局部信念Bi(hi)多次采样,并在采样结束后与其它Agent协同行动,其中,根据公式(3),Agent mi的观测值为当前时刻的状态,根据公式(2),位置状态的转移是确定的,而信息状态则体现在回报值中,这减少了前瞻树的分支数,在Simulation程序中,如果hi是新节点,那么对该节点进行初始化,执行Rollout程序;初始化的参数包括,节点的初始次数初始值函数
Figure BDA0002215161150000093
和信念
Figure BDA0002215161150000094
其中,信息状态信念根据公式(6)更新;而当Agent的行动确定后,位置状态信念也是确定的,反之,在同步行动后,仿真器G对状态si进行采样,并嵌套执行Simulation程序直至到达规划步长,且由于每个前瞻树可能位于不同深度,此时需要通过全局变量flag记录当前协同的深度;当depth<flag时,根据存储的临时策略集πtemp选取当前深度的动作a*;且能够影响agent mi状态是仅为其邻居Agent的行动
Figure BDA0002215161150000097
此外πtemp初始值为
Figure BDA0002215161150000098
flag初始值为0,在Rollout程序中,通过随机仿真来评估潜在的长期回报值。
算法1.基于变量消元的在线任务规划算法
Figure BDA0002215161150000101
针对集中式集群协作算法,计算最大化R=∑iRi的动作很棘手,因为需要枚举所有Agent的联合行动空间,其中通过合作图和利用Ri函数中的局部结构,可以非常有效地计算具有有限通信和可观察性的Agent的最优行动,且每个Agent mi都有一个局部回报函数
Figure BDA0002215161150000102
局部回报函数Qi受到Agent的行动及其邻居Agent行动的影响,如图3所示。
针对基于变量消减的集中式集群协作算法,变量消减法在于,不是同时考虑所有变量,而是一次只优化一个变量,当最大化行动变量ai时,将与变量ai有关的变量都囊括在内,如算法2所示,首先,等待所有Agent,直到所有Agent都进入程序;第二,根据每个Agentmi∈M的前瞻树Ti(hi),采用置信度上限,对每个Agent的值函数
Figure BDA0002215161150000111
赋值,设定Q是值函数集合;第三,依次选择一个未消减的Agent mi,求解行动集合约束下Agent mi的最优行动
Figure BDA0002215161150000113
设定C表示新值函数集合,
Figure BDA0002215161150000114
表示索引为i的新值函数,
Figure BDA0002215161150000115
表示影响Ci的行动集合,
Figure BDA0002215161150000116
表示
Figure BDA0002215161150000117
中除去ai的行动集合,Cei表示C中包含行动ai的索引集合。
Figure BDA0002215161150000118
中的元素包括了
Figure BDA0002215161150000119
j∈Cei
Figure BDA00022151611500001110
k∈Nei中所有的元素,且
Figure BDA00022151611500001111
中每个元素是唯一的,即对任意al1,
Figure BDA00022151611500001112
l1≠l2,有al1≠al2
Figure BDA00022151611500001113
是两类值函数之和,包含ai的新值函数Cj,j∈Cei和与Agent mi相连的Agent的值函数Qk,k∈Nei;第四,在第三步计算完约束下的最优行动
Figure BDA00022151611500001114
mi∈M后,通过反向遍历Agent mi来计算所有Agent的最优行动集合a*,最后,更新πtemp(depth)和flag变量。
算法2:集中式集群协作算法
在实施例1中,规划步长D为1的场景中,其平均回报值超出最优算法平均回报值的5.27%;在规划步长D为3的场景中,其平均回报值超出最优算法平均回报值的3.16%;在规划步长D为6的场景中,其平均回报值超出最优算法平均回报值的1.96%;在规划步长D为10的场景中,其平均回报值超出最优算法平均回报值的3.75%,因此使得整个任务规划法有利于进行推广运用。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (3)

1.基于变量消元的集中式集群侦察任务规划法,其特征在于,包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法。
2.根据权利要求1所述的基于变量消元的集中式集群侦察任务规划法,其特征在于,所述集中式集群侦察问题描述包含物理环境模型和无人机模型。
3.根据权利要求1所述的基于变量消元的集中式集群侦察任务规划法,其特征在于,所述集中式在线路径规划算法包括在线规划算法和集中式集群协作算法。
CN201910912548.6A 2019-09-25 2019-09-25 基于变量消元的集中式集群侦察任务规划法 Active CN110727291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910912548.6A CN110727291B (zh) 2019-09-25 2019-09-25 基于变量消元的集中式集群侦察任务规划法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910912548.6A CN110727291B (zh) 2019-09-25 2019-09-25 基于变量消元的集中式集群侦察任务规划法

Publications (2)

Publication Number Publication Date
CN110727291A true CN110727291A (zh) 2020-01-24
CN110727291B CN110727291B (zh) 2022-08-05

Family

ID=69219442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910912548.6A Active CN110727291B (zh) 2019-09-25 2019-09-25 基于变量消元的集中式集群侦察任务规划法

Country Status (1)

Country Link
CN (1) CN110727291B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667072A (zh) * 2020-05-15 2020-09-15 中国电子科技集团公司电子科学研究院 一种情报使用价值评估方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109254588A (zh) * 2018-10-17 2019-01-22 北京航空航天大学 一种基于交叉变异鸽群优化的无人机集群协同侦察方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109254588A (zh) * 2018-10-17 2019-01-22 北京航空航天大学 一种基于交叉变异鸽群优化的无人机集群协同侦察方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈少飞: "无人机集群系统侦察监视任务规划方法", 《中国博士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667072A (zh) * 2020-05-15 2020-09-15 中国电子科技集团公司电子科学研究院 一种情报使用价值评估方法
CN111667072B (zh) * 2020-05-15 2023-03-24 中国电子科技集团公司电子科学研究院 一种情报使用价值评估方法

Also Published As

Publication number Publication date
CN110727291B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
US8514283B2 (en) Automatic vision sensor placement apparatus and method
Park et al. Cooperative information-driven source search and estimation for multiple agents
CN109271683B (zh) 一种面向日照约束的建筑群自动排布算法
Bein et al. Optimizing border patrol operations using unmanned aerial vehicles
CN106599108A (zh) 一种三维环境中多模态环境地图构建方法
CN103544496A (zh) 基于空间与时间信息融合的机器人场景识别方法
CN111024080B (zh) 一种无人机群对多移动时敏目标侦察路径规划方法
CN111414006B (zh) 基于分布式顺次分配的无人机集群侦察任务规划方法
CN111367317A (zh) 基于贝叶斯学习的无人机集群在线任务规划方法
CN113821041A (zh) 一种多机器人协同导航与避障的方法
CN113514843A (zh) 多子图激光雷达定位方法、系统以及终端
CN110727291B (zh) 基于变量消元的集中式集群侦察任务规划法
Zhu et al. Deep reinforcement learning for real-time assembly planning in robot-based prefabricated construction
CN114815801A (zh) 一种基于策略-价值网络及mcts的自适应环境路径规划方法
CN113449878B (zh) 数据分布式的增量学习方法、系统、设备及存储介质
CN113778093A (zh) 基于改进麻雀搜索算法的amr自主移动机器人路径规划方法
CN111080080B (zh) 一种村镇地质灾害风险预估方法及系统
CN116430754B (zh) 一种无人机集群多任务控制半实物仿真方法
CN115327926A (zh) 基于深度强化学习的多智能体动态覆盖控制方法及系统
US20220107628A1 (en) Systems and methods for distributed hierarchical control in multi-agent adversarial environments
CN111486847B (zh) 一种无人机导航方法及系统
Dubenko et al. Multi-Agent Reinforcement Learning for Robot Collaboration
Zhou et al. Patrolling task planning for the multi-layer multi-agent system based on sequential allocation method
CN116760888B (zh) 一种多无人机间数据智能组织与推送方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant