CN110727291B - 基于变量消元的集中式集群侦察任务规划法 - Google Patents
基于变量消元的集中式集群侦察任务规划法 Download PDFInfo
- Publication number
- CN110727291B CN110727291B CN201910912548.6A CN201910912548A CN110727291B CN 110727291 B CN110727291 B CN 110727291B CN 201910912548 A CN201910912548 A CN 201910912548A CN 110727291 B CN110727291 B CN 110727291B
- Authority
- CN
- China
- Prior art keywords
- information
- agent
- state
- agents
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/12—Target-seeking control
Abstract
本发明公开了基于变量消元的集中式集群侦察任务规划法,包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法。本发明提出的任务规划法在进行运用的过程中,能高于传统算法所得到的平均回报值,进而有利于进行推广应用。
Description
技术领域
本发明涉及任务规划技术领域,尤其涉及基于变量消元的集中式集群侦察任务规划法。
背景技术
在很多动态不确定的环境中,例如地震、火灾和洪涝灾害,人们需要实时的和最新的态势信息以便有效地决策和提供救援支持。因此,许多研究者建立了灾难响应系统。首先,灾难响应系统获取关于受灾区域的先验信息并进行预处理,如天气预报、卫星图像等。这是一个十分痛苦的过程,特别地信息中可能具有延时、噪声、偏差和错误。其次,灾难响应系统根据先验信息做出应急响应决策。灾难响应系统通常是采用OODA(Observe-Orientate-Decide-Act)框架的分层组织,将决策分为战略层、战术层和操作层面。每层的视角和关注对象是不同的。层与层之间紧密联系的,主要包括自顶向下的命令流和自底向上的信息流。战略层决策者关注于应急响应工作的使命目标;根据战略层制定的使命目标,战术层决策者规划任务区域,并分配无人机;在操作层,操作员具体操作无人机完成,以上项目及工作都需要做出任务规划,而传统的方法在进行任务规划并根据任务规划进行实行时存在着平均回报值较低的情况,为此,我们提出了一种基于变量消元的集中式集群侦察任务规划法。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的基于变量消元的集中式集群侦察任务规划法。
为了实现上述目的,本发明采用了如下技术方案:
基于变量消元的集中式集群侦察任务规划法,包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法。
优选的,所述集中式集群侦察问题描述包含物理环境模型和无人机模型。
优选的,所述集中式在线路径规划算法包括在线规划算法和集中式集群协作算法。
本发明提出的基于变量消元的集中式集群侦察任务规划法,有益效果在于:本方案提出的任务规划法在进行运用的过程中,能高于传统算法所得到的平均回报值,进而有利于进行推广应用。
附图说明
图1为本发明的信息状态示意图;
图2为本发明的Agent及巡逻区域示意图;
图3为本发明的12个Agent巡逻合作图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
参照图1-3,基于变量消元的集中式集群侦察任务规划法,包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法。
所述集中式集群侦察问题描述包含物理环境模型和无人机模型,针对物理环境模型,物理环境的特点是由其时空特性决定的,环境的空间特性被编码为布局图,时间特性编码为离散时步,并做出如下定义:
定义1、布局图形,布局图形被定义为嵌入在欧几里得空间中一个无向图形,记为G=(V,E),其中,V表示空间顶点集合,E表示边集合,布局图形G中顶点的个数为|V|,在灾难响应情景中,一个点代表了人们感兴趣重要区域,比如小区、绿地和工厂等,捕获两个顶点之间可穿越的区域为边,即Agent移动的路径。
定义2、时间,时间被编码为等步长的离散时步,记为t∈{0,1,2,...}。
在每个时步中,环境信息发生一次变化,Agent完成一次观测、决策和行动,一个时步对应于的时间是由实际情景决定的,如果无人机能在10分钟内到达目标区域,并完成一次信息收集,那么一个时步可以设定为10分钟,且将感兴趣的环境信息特征为离散的信息状态,信息状态附着于布局图中的每个顶点上。
定义3、信息状态:信息状态表示了布局图中顶点的信息含量。
信息状态包含信息状态等级和信息状态值,分别定性地和定量地表示信息量,信息状态等级集合记为I={I1,I2,...,IN},其中In表示第n种信息等级,N为信息等级的数量,对应于信息状态等级,信息状态值集合记为F={F1,F2,...,FN},通过信息值函数建立两者的联系,F=f(I);且设定如果n越大,那么信息状态等级In具有更高的价值。因此,信息值函数是单调非递减的,即F1≤F2≤…≤FN。
定义4、信息状态值函数、:信息状态值函数定义为一个集合函数将信息值赋予信息状态等级,信息值函数编码有关环境时空特性先验已知的任何信息,例如被监测现象的类型,和现象变化的速度,该定义确保了模型的一般性,因为它可以根据环境特点而显着变化;在捕获环境的动态变化性为多状态Markov链,针对环境信息变化的条件,即假设所有顶点的信息状态的变化服从独立的、离散时间的多状态Markov链,具体地,信息状态转移矩阵如公式(1)所示。
其中,pij表示信息状态Ii转移到信息状态Ij的概率,在派遣无人机巡逻之前,先从不同的渠道获取环境的先验信息,如天气预报、地图和卫星图像等,根据先验信息,通过机器学习技术构造关于信息状态转移矩阵的统计模型,在假设信息值状态转移矩阵P是已知的,进而有助于获取初始的Agent调度,在获得了精确的先验信息并得到了新的统计模型下,使得在线规划算法能够根据新的统计模型重新调整Agent的调度计划。
针对无人机模型,做出如下定义:
定义5、信息收集Agent:信息收集Agent是无向图形G中的可移动自主实体,指导他们的活动收集信息,目的是提供准确和最新的态势感知,在任一时步t,所有Agent都在无向图形G中的某一顶点上,多个Agent能够同时占用同一个顶点。
定义7、邻居:针对与Agent mi巡逻区域有交集的Agent的集合为其邻居,记为邻居Agent的行动能够影响该Agent的行为,当Agent移动到某顶点时,Agent能够自动收集该顶点的信息,收集信息的时间是忽略不计的,同时,该顶点的信息状态等级将会重置为I1,表示没有新信息的状态。
针对所述基于MPOMDP的集中式集群侦察问题建模,将其描述为<M,S,A,O,δ,Z,R,D,B>。
(1)M={m1,m2,...,m|M|}表示所有Agent的集合,其中Agent的数量记为|M|,Agentmi∈M在其预先设定的区域内中执行任务,Agent mi的邻居记为且设定Agent mi也属于其邻居集合,即mi∈Nei。
(2)S为联合状态集合,从不同维度看,状态可以因子分解为多个状态特征,且将状态分解为Agent的位置状态和顶点的信息状态,定义为S=[SV,SI]。
(3)A=[A1,A2,...,A|M|]为联合行动集合,记为A=×iAi,一个联合行动定义为a∈A,Agent mi的行动记为ai∈Ai,Agent mi及其邻居Agent的行动集合记为Agentmi的行动ai包括从当前位置v出发移动到邻居顶点的动作,且设定顶点v本身也属于其邻居
(4)O=[O1,O2,...,O|M|]为联合观测集合,记为O=×i Oi,其中,一个联合观测定义为o∈O,Agent mi的观测记为oi∈Oi,且设定所有Agent的位置状态是完全可观的,此外,Agent mi能够观察到其当前时刻所处位置的信息状态。
(5)δ为联合状态转移概率集合,包括联合位置状态转移概率和联合信息状态转移概率,定义为其中,Agent mi的信息状态转移概率服从离散时间的Markov过程(见公式1),而其位置状态转移概率不仅由Agent自身决定,还受其邻居Nei的影响,如公式(2)所示:
(6)Z为联合观测转移概率集合,定义为 是执行动作并得到状态si后得到观测值oi的概率,根据上文的描述,观测值oi等于当前时刻的其邻居Nei的位置状态和Agent mi所处位置的信息状态如公式(3)所示:
其中,ni表示与Agent mi同时访问顶点v时Agent的个数,Ii为Agent mi当前时刻当前位置的信息等级。公式(4)表示多个Agent访问同一个顶点的效果等价于一个Agent的访问效果。
(8)D表示规划步长。
(9)B表示信念,是设计最优策略的充分统计量,包括位置状态信念和信息状态信念,记为B=[BV,BI],根据公式(2),位置状态是完全可观的,因此主要聚焦于信息状态信念,即所有顶点的信息状态是独立变化的,顶点的信息状态信念能够被因式分解更为简洁的信念表示,如公式(5)所示:
不失一般性,任意顶点vi的信息状态信念向量为且其中,表示在t时刻节点vi的信息状态是In时的条件概率,信念中的信息状态数量从N|V|减少为N·|V|,因此极大减少了寻找最优策略的计算和存储复杂度,进一步通过更新信息状态信念预测信息状态的变化趋势,记为B(t+1)=T(B(t)),其中,对于环境中任意顶点vi,信息状态信念更新公式(6)所示:
其中,Λ为第一个元素为1的单位向量,v′表示当前时刻被任意Agent访问的顶点。
所述集中式在线路径规划算法包括在线规划算法和集中式集群协作算法,进一步的对基于变量消元的在线动态规划算法进行剔除,且每个Agent选择其行动Agent的目标是计算最优策略π=[π1,π2,...,π|M|]以最大化全局值函数Bi(hi),根据上述,R为可分解全局回报函数,即全局值函数可以被因子化为公式(7):
针对在线规划算法,将全局前瞻树分解为多个局部前瞻树,每个Agent都拥有一个局部前瞻树,对于松耦合的多Agent系统,该分解将极大减少前瞻树的分支数,能够将蒙特卡洛树推广至更大规模Agent的MPOMDP,此外,在决定行动时等待邻居Agent并协同行动,以便得到全局最优策。
具体而言,每个Agent都从Search程序开始执行算法1;在不失一般性,以Agent mi为例进行介绍,在Search程序中,根据Agent mi的局部信念Bi(hi)多次采样,并在采样结束后与其它Agent协同行动,其中,根据公式(3),Agent mi的观测值为当前时刻的状态,根据公式(2),位置状态的转移是确定的,而信息状态则体现在回报值中,这减少了前瞻树的分支数,在Simulation程序中,如果hi是新节点,那么对该节点进行初始化,执行Rollout程序;初始化的参数包括,节点的初始次数初始值函数和信念其中,信息状态信念根据公式(6)更新;而当Agent的行动确定后,位置状态信念也是确定的,反之,在同步行动后,仿真器G对状态si进行采样,并嵌套执行Simulation程序直至到达规划步长,且由于每个前瞻树可能位于不同深度,此时需要通过全局变量flag记录当前协同的深度;当depth<flag时,根据存储的临时策略集πtemp选取当前深度的动作a*;且能够影响agent mi状态是仅为其邻居Agent的行动此外πtemp初始值为flag初始值为0,在Rollout程序中,通过随机仿真来评估潜在的长期回报值。
算法1.基于变量消元的在线任务规划算法
针对集中式集群协作算法,计算最大化R=∑iRi的动作很棘手,因为需要枚举所有Agent的联合行动空间,其中通过合作图和利用Ri函数中的局部结构,可以非常有效地计算具有有限通信和可观察性的Agent的最优行动,且每个Agent mi都有一个局部回报函数局部回报函数Qi受到Agent的行动及其邻居Agent行动的影响,如图3所示。
针对基于变量消减的集中式集群协作算法,变量消减法在于,不是同时考虑所有变量,而是一次只优化一个变量,当最大化行动变量ai时,将与变量ai有关的变量都囊括在内,如算法2所示,首先,等待所有Agent,直到所有Agent都进入程序;第二,根据每个Agentmi∈M的前瞻树Ti(hi),采用置信度上限,对每个Agent的值函数赋值,设定Q是值函数集合;第三,依次选择一个未消减的Agent mi,求解行动集合约束下Agent mi的最优行动设定C表示新值函数集合,表示索引为i的新值函数,表示影响Ci的行动集合,表示中除去ai的行动集合,Cei表示C中包含行动ai的索引集合。中的元素包括了j∈Cei和k∈Nei中所有的元素,且中每个元素是唯一的,即对任意al1,l1≠l2,有al1≠al2;是两类值函数之和,包含ai的新值函数Cj,j∈Cei和与Agent mi相连的Agent的值函数Qk,k∈Nei;第四,在第三步计算完约束下的最优行动mi∈M后,通过反向遍历Agent mi来计算所有Agent的最优行动集合a*,最后,更新πtemp(depth)和flag变量。
算法2:集中式集群协作算法
在实施例1中,规划步长D为1的场景中,其平均回报值超出最优算法平均回报值的5.27%;在规划步长D为3的场景中,其平均回报值超出最优算法平均回报值的3.16%;在规划步长D为6的场景中,其平均回报值超出最优算法平均回报值的1.96%;在规划步长D为10的场景中,其平均回报值超出最优算法平均回报值的3.75%,因此使得整个任务规划法有利于进行推广运用。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (1)
1.基于变量消元的集中式集群侦察任务规划法,其特征在于,包括集中式集群侦察问题描述、基于MPOMDP的集中式集群侦察问题建模及集中式在线路径规划算法,所述集中式集群侦察问题描述包含物理环境模型和无人机模型;
针对物理环境模型,物理环境的特点是由其时空特性决定的,环境的空间特性被编码为布局图,时间特性编码为离散时步,并做出如下定义:
定义1、布局图形,布局图形被定义为嵌入在欧几里得空间中一个无向图形,记为G=(V,E),其中,V表示空间顶点集合,E表示边集合,布局图形G中顶点的个数为|V|,在灾难响应情景中,一个点代表了人们感兴趣重要区域,比如小区、绿地和工厂等,捕获两个顶点之间可穿越的区域为边,即Agent移动的路径;
定义2、时间,时间被编码为等步长的离散时步,记为t∈{0,1,2,...};
在每个时步中,环境信息发生一次变化,Agent完成一次观测、决策和行动,一个时步对应于的时间是由实际情景决定的,如果无人机能在10分钟内到达目标区域,并完成一次信息收集,那么一个时步可以设定为10分钟,且将感兴趣的环境信息特征为离散的信息状态,信息状态附着于布局图中的每个顶点上;
定义3、信息状态:信息状态表示了布局图中顶点的信息含量;
信息状态包含信息状态等级和信息状态值,分别定性地和定量地表示信息量,信息状态等级集合记为I={I1,I2,...,IN},其中In表示第n种信息等级,N为信息等级的数量,对应于信息状态等级,信息状态值集合记为F={F1,F2,...,FN},通过信息值函数建立两者的联系,F=f(I);且设定如果n越大,那么信息状态等级In具有更高的价值;因此,信息值函数是单调非递减的,即F1≤F2≤…≤FN;
定义4、信息状态值函数:信息状态值函数定义为一个集合函数f:将信息值赋予信息状态等级,信息值函数编码有关环境时空特性先验已知的任何信息,例如被监测现象的类型,和现象变化的速度,该定义确保了模型的一般性,因为它可以根据环境特点而显着变化;在捕获环境的动态变化性为多状态Markov链,针对环境信息变化的条件,即假设所有顶点的信息状态的变化服从独立的、离散时间的多状态Markov链;
针对无人机模型,做出如下定义:
定义5、信息收集Agent:信息收集Agent是无向图形G中的可移动自主实体,指导他们的活动收集信息,目的是提供准确和最新的态势感知,在任一时步t,所有Agent都在无向图形G中的某一顶点上,多个Agent能够同时占用同一个顶点;
定义7、邻居:针对与Agent mi巡逻区域有交集的Agent的集合为其邻居,记为邻居Agent的行动能够影响该Agent的行为,当Agent移动到某顶点时,Agent能够自动收集该顶点的信息,收集信息的时间是忽略不计的,同时,该顶点的信息状态等级将会重置为I1,表示没有新信息的状态;
针对所述基于MPOMDP的集中式集群侦察问题建模,将其描述为<M,S,A,O,δ,Z,R,D,B>;
(1)M={m1,m2,...,m|M|}表示所有Agent的集合,其中Agent的数量记为|M|,Agent mi∈M在其预先设定的区域内中执行任务,Agent mi的邻居记为且设定Agentmi也属于其邻居集合,即mi∈Nei;
(2)S为联合状态集合,从不同维度看,状态可以因子分解为多个状态特征,且将状态分解为Agent的位置状态和顶点的信息状态,定义为S=[SV,SI];
(3)A=[A1,A2,...,A|M|]为联合行动集合,记为A=×iAi,一个联合行动定义为a∈A,Agent mi的行动记为ai∈Ai,Agent mi及其邻居Agent的行动集合记为Agent mi的行动ai包括从当前位置v出发移动到邻居顶点的动作,且设定顶点v本身也属于其邻居
(4)O=[O1,O2,...,O|M|]为联合观测集合,记为O=×iOi,其中,一个联合观测定义为o∈O,Agent mi的观测记为oi∈Oi,且设定所有Agent的位置状态是完全可观的,此外,Agent mi能够观察到其当前时刻所处位置的信息状态;
(8)D表示规划步长;
(9)B表示信念,是设计最优策略的充分统计量,包括位置状态信念和信息状态信念,记为B=[BV,BI],位置状态是完全可观的,因此主要聚焦于信息状态信念,即所有顶点的信息状态是独立变化的,顶点的信息状态信念能够被因式分解更为简洁的信念表示;
所述集中式在线路径规划算法包括在线规划算法和集中式集群协作算法,进一步的对基于变量消元的在线动态规划算法进行剔除,且每个Agent选择其行动Agent的目标是计算最优策略π=[π1,π2,...,π|M|]以最大化全局值函数Bi(hi);
针对在线规划算法,将全局前瞻树分解为多个局部前瞻树,每个Agent都拥有一个局部前瞻树,对于松耦合的多Agent系统,该分解将极大减少前瞻树的分支数,能够将蒙特卡洛树推广至更大规模Agent的MPOMDP,此外,在决定行动时等待邻居Agent并协同行动,以便得到全局最优策;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910912548.6A CN110727291B (zh) | 2019-09-25 | 2019-09-25 | 基于变量消元的集中式集群侦察任务规划法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910912548.6A CN110727291B (zh) | 2019-09-25 | 2019-09-25 | 基于变量消元的集中式集群侦察任务规划法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110727291A CN110727291A (zh) | 2020-01-24 |
CN110727291B true CN110727291B (zh) | 2022-08-05 |
Family
ID=69219442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910912548.6A Active CN110727291B (zh) | 2019-09-25 | 2019-09-25 | 基于变量消元的集中式集群侦察任务规划法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110727291B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667072B (zh) * | 2020-05-15 | 2023-03-24 | 中国电子科技集团公司电子科学研究院 | 一种情报使用价值评估方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109254588A (zh) * | 2018-10-17 | 2019-01-22 | 北京航空航天大学 | 一种基于交叉变异鸽群优化的无人机集群协同侦察方法 |
-
2019
- 2019-09-25 CN CN201910912548.6A patent/CN110727291B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109254588A (zh) * | 2018-10-17 | 2019-01-22 | 北京航空航天大学 | 一种基于交叉变异鸽群优化的无人机集群协同侦察方法 |
Non-Patent Citations (1)
Title |
---|
无人机集群系统侦察监视任务规划方法;陈少飞;《中国博士学位论文全文数据库 工程科技Ⅱ辑》;20171115;正文第1-64页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110727291A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113110592A (zh) | 一种无人机避障与路径规划方法 | |
Yanmaz et al. | A discrete stochastic process for coverage analysis of autonomous UAV networks | |
Bein et al. | Optimizing border patrol operations using unmanned aerial vehicles | |
CN103544496A (zh) | 基于空间与时间信息融合的机器人场景识别方法 | |
CN110544296A (zh) | 一种敌方威胁不确定环境下无人机三维全局航迹智能规划方法 | |
CN106814737A (zh) | 一种基于啮齿类动物模型和RTAB‑Map闭环检测算法的SLAM方法 | |
CN109271683A (zh) | 一种面向日照约束的建筑群自动排布算法 | |
EP1991882A1 (en) | A method of tracking a state of a mobile electronic device | |
CN111367317A (zh) | 基于贝叶斯学习的无人机集群在线任务规划方法 | |
CN113219506A (zh) | 一种多模融合无缝切换的定位方法 | |
CN113821041A (zh) | 一种多机器人协同导航与避障的方法 | |
CN110727291B (zh) | 基于变量消元的集中式集群侦察任务规划法 | |
Welle et al. | Optimization techniques for laser-based 3D particle filter SLAM | |
CN113514843A (zh) | 多子图激光雷达定位方法、系统以及终端 | |
CN114815801A (zh) | 一种基于策略-价值网络及mcts的自适应环境路径规划方法 | |
CN111080080B (zh) | 一种村镇地质灾害风险预估方法及系统 | |
CN113778093A (zh) | 基于改进麻雀搜索算法的amr自主移动机器人路径规划方法 | |
CN115327926A (zh) | 基于深度强化学习的多智能体动态覆盖控制方法及系统 | |
Bitton et al. | Hydra: A framework and algorithms for mixed-initiative UAV-assisted search and rescue | |
CN114047766A (zh) | 面向室内外场景长期应用的移动机器人数据采集系统及方法 | |
Zoubert-Ousseni et al. | Comparison of post-processing algorithms for indoor navigation trajectories | |
Zhou et al. | Centralized patrolling with weakly-coupled agents using Monte Carlo tree search | |
CN110795519A (zh) | 基于Markov模型和概率统计的位置预测方法及可读存储介质 | |
Kamrani et al. | UAV path planning in search operations | |
CN114967679B (zh) | 一种消防机器人路径自适应控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |