CN105930944A

CN105930944A - 一种基于dec-pomdp的多卫星协同优化决策方法及装置

Info

Publication number: CN105930944A
Application number: CN201610546764.XA
Authority: CN
Inventors: 王冲; 张海; 董志强; 刘铭; 董相均; 关礼安; 邵欣
Original assignee: INSTITUTE OF RADAR AND ELECTRONIC COUNTERMEASURE OF CHINESE PLA AIR FORCE EQUIPM
Current assignee: INSTITUTE OF RADAR AND ELECTRONIC COUNTERMEASURE OF CHINESE PLA AIR FORCE EQUIPM
Priority date: 2016-07-12
Filing date: 2016-07-12
Publication date: 2016-09-07

Abstract

本发明实施例提供了一种基于DEC‑POMDP多卫星协同优化决策方法及装置，属于对地观测卫星地面运控技术领域。该方法包括：获取当前规划决策时刻的环境观测信息和DAG协同规划环境中其它各卫星的部分状态信息，并基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新；根据更新后的信念状态信息计算所述当前规划决策时刻最优的观测动作，并获得瞬时报酬值；根据所述瞬时报酬值计算期望折扣报酬值，并计算出使得所述期望折扣报酬值最大化的最优策略，以及得到所述期望折扣报酬值的最大值；将每个规划决策时刻得到的折扣报酬期望值进行叠加合并，得到所述卫星协同任务规划系统的整体值函数。本发明能够实现卫星协同任务规划系统的分布式优化决策。

Description

一种基于DEC-POMDP的多卫星协同优化决策方法及装置

技术领域

本发明涉及对地观测卫星地面运控技术领域，具体而言，涉及一种基于DEC-POMDP的多卫星协同优化决策方法及装置。

背景技术

部分可见马尔可夫决策过程模型(POMDP)是一种用于制定序列决策的经典模型。在POMDP中，智能体做出动作所产生的效果是不确定的，对环境状态信息的观测也是不完整的。因此，POMDP对于表达智能体在非确定环境下的序列决策问题而言，是一种非常有效的模型。

借鉴POMDP的思想，可以将单颗卫星在时序有向无圈图(DAG)中的任务搜索问题转化为决策问题。对于由执行协同规划任务的自治卫星组成的复杂非集中式系统(Decentralized System)，该非集中式系统中的每颗卫星都是一个智能体，并且在非集中式系统的动态特性上并没有太多关联，只是通过共同受理的观测任务发生作用，并且通过卫星之间的星际链路交换信息和进行协调。该非集中式系统是具有动态解耦特性的系统。在该具有动态解耦特性的系统中，卫星的规划决策主要通过改变环境信息，并间接影响到其它卫星的任务规划决策，由于卫星观测环境信息的不一致导致了多个卫星协同决策的困难增加。

发明内容

本发明提供了一种基于DEC-POMDP的多卫星协同优化决策方法及装置，旨在针对多个卫星的协同环境观测信息不一致性，有效提高了卫星协同任务规划系统进行分布式优化决策的高效性和准确性。

第一方面，本发明实施例提供的一种基于DEC-POMDP的多卫星协同优化决策方法，应用于具有动态解耦特性的卫星协同任务规划系统包括的卫星，所述卫星协同任务规划系统包括多个相互独立的卫星，所述多卫星协同优化决策方法包括：

获取当前规划决策时刻的环境观测信息和DAG协同规划环境中其它各卫星的部分状态信息，并基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新，其中，所述部分可见马尔可夫决策过程模型包括有限状态集合、动作集合、状态转移函数、报酬函数、有限观测集合和观察函数；

根据更新后的信念状态信息计算所述当前规划决策时刻最优的观测动作，并根据所述部分可见马尔可夫决策过程模型获得与所述观测动作相对应的瞬时报酬值；

根据所述瞬时报酬值计算期望折扣报酬值，并计算出使得所述期望折扣报酬值最大化的最优策略，以及得到所述期望折扣报酬值的最大值；

进入下一规划决策时刻，重复进行以上步骤直至整个规划决策过程的结束，并得到在各规划决策时刻的折扣报酬期望值；

将每个规划决策时刻得到的折扣报酬期望值进行叠加合并，得到所述卫星协同任务规划系统的整体值函数。

优选地，所述基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新的步骤包括：

当信念状态信息属于所述有限状态集合，且执行所述动作集合中的动作时，根据所述状态转移函数中的转移概率分布对卫星自身的信念状态信息进行更新，并根据所述观察函数得到在所述有限观测集合中观察的概率分布O(a,s′,o)。

优选地，所述基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新的步骤还包括：根据贝叶斯准则对卫星自身的信念状态信息进行更新；

定义信念状态更新函数B×Ω×A，

其中，B表示信念状态空间，Ω表示有限观测集合，A表示动作集合，则：

b^{'} (s^{'}) = \Pr (s^{'} | b, a, o) = \frac{O (s^{'}, a, o) Σ_{s &Element; S} T (s, a, s^{'}) b (s)}{\Pr (o | b, a)}

以及

\Pr (o | b, \overset{&RightArrow;}{a}) = Σ_{s^{'} &Element; S} O (s^{'}, a, o) Σ_{s &Element; S} T (s, a, s^{'}) b (s)

其中，Pr(o|b,a)为归一化因子，表示在信念状态信息b下执行动作a时得到的观测概率o。

优选地，所述卫星协同任务规划系统的状态空间记为S＝{Si},1≤i≤NS，当第i颗卫星的策略方程为π_i时，所述卫星协同任务规划系统的策略方程可以表示为如下形式：

π (b) = [π_{1} (b_{1}), ... π_{N_{S}} (b_{N_{S}})]

所述卫星协同任务规划系统的信念状态更新函数可表示为：

第i颗卫星的信念状态更新函数则可以表示为：

其中，表示第i颗卫星获得的其它卫星的部分状态信息；

在最优策略π^*下，每个信念状态信息的折扣报酬期望值组成最优值函数V^*，以递归形式表示为：

V^{*} (b) = \underset{\overset{&RightArrow;}{a} &Element; A}{m a x} [Σ_{s &Element; S} b (s) R (s, \overset{&RightArrow;}{a}) + {γΣ}_{\overset{&RightArrow;}{o} &Element; Ω} \Pr (\overset{&RightArrow;}{o} | b, \overset{&RightArrow;}{a}) V (b^{'})]

其中，所述最优策略π^*为动作系列：

π^{*} (b) = \underset{\overset{&RightArrow;}{a} &Element; A}{argmax} [Σ_{s &Element; S} b (s) R (s, \overset{&RightArrow;}{a}) + {γΣ}_{\overset{&RightArrow;}{o} &Element; Ω} \Pr (\overset{&RightArrow;}{o} | b, \overset{&RightArrow;}{a}) V (b^{'})] .

优选地，所述卫星协同任务规划系统的整体值函数是所有NS颗卫星的值函数之和，即表示为如下形式：

V (b) = Σ_{i = 1}^{N_{S}} V_{i} (b_{i})

第二方面，本发明实施例提供的一种基于DEC-POMDP的多卫星协同优化决策装置，应用于具有动态解耦特性的卫星协同任务规划系统包括的卫星，所述卫星协同任务规划系统包括多个相互独立的卫星，其特征在于，所述多卫星协同优化决策装置包括：

信念状态信息更新模块，用于获取当前规划决策时刻的环境观测信息和DAG协同规划环境中其它各卫星的部分状态信息，并基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新，其中，所述部分可见马尔可夫决策过程模型包括有限状态集合、动作集合、状态转移函数、报酬函数、有限观测集合和观察函数；

优化决策模块，用于根据更新后的信念状态信息计算所述当前规划决策时刻最优的观测动作，并根据所述部分可见马尔可夫决策过程模型获得与所述观测动作相对应的瞬时报酬值；以及根据所述瞬时报酬值计算期望折扣报酬值，并计算出使得所述期望折扣报酬值最大化的最优策略，以及得到所述期望折扣报酬值的最大值；

值函数计算模块，用于将每个规划决策时刻得到的折扣报酬期望值进行叠加合并，得到所述卫星协同任务规划系统的整体值函数。

优选地，所述信念状态信息更新模块还用于在信念状态信息属于所述有限状态集合，且执行所述动作集合中的动作的情况下，根据所述状态转移函数中的转移概率分布对卫星自身的信念状态信息进行更新，并根据所述观察函数得到在所述有限观测集合中观察的概率分布O(a,s′,o)。

优选地，所述信念状态信息更新模块还用于根据贝叶斯准则对卫星自身的信念状态信息进行更新；

定义信念状态更新函数B×Ω×A，

b^{'} (s^{'}) = \Pr (s^{'} | b, a, o) = \frac{O (s^{'}, a, o) Σ_{s &Element; S} T (s, a, s^{'}) b (s)}{\Pr (o | b, a)}

以及

\Pr (o | b, \overset{&RightArrow;}{a}) = Σ_{s^{'} &Element; S} O (s^{'}, a, o) Σ_{s &Element; S} T (s, a, s^{'}) b (s)

π (b) = [π_{1} (b_{1}), ... π_{N_{S}} (b_{N_{S}})]

所述卫星协同任务规划系统的信念状态更新函数可表示为：

第i颗卫星的信念状态更新函数则可以表示为：

其中，表示第i颗卫星获得的其它卫星的部分状态信息；

V^{*} (b) = \underset{\overset{&RightArrow;}{a} &Element; A}{m a x} [Σ_{s &Element; S} b (s) R (s, \overset{&RightArrow;}{a}) + {γΣ}_{\overset{&RightArrow;}{o} &Element; Ω} \Pr (\overset{&RightArrow;}{o} | b, \overset{&RightArrow;}{a}) V (b^{'})]

其中，所述最优策略π^*为动作系列：

π^{*} (b) = \underset{\overset{&RightArrow;}{a} &Element; A}{argmax} [Σ_{s &Element; S} b (s) R (s, \overset{&RightArrow;}{a}) + {γΣ}_{\overset{&RightArrow;}{o} &Element; Ω} \Pr (\overset{&RightArrow;}{o} | b, \overset{&RightArrow;}{a}) V (b^{'})] .

V (b) = Σ_{i = 1}^{N_{S}} V_{i} (b_{i}) .

本发明实施例提供的一种基于DEC-POMDP多卫星协同优化决策方法及装置，根据获取的环境观测信息和其它各卫星的部分状态信息，为了适应信念状态信息的无后效性要求，基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新，并计算出最优的观测动作，以及获得与所述观测动作相对应的瞬时报酬值和期望折扣报酬值，从而计算出使得所述期望折扣报酬值最大化的最优策略。如此，有效提高了卫星协同任务规划系统进行分布式优化决策的高效性和准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应该看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施方式提供的一种基于DEC-POMDP的多卫星协同优化决策装置的功能模块框图。

图2是本发明实施方式提供的一种卫星协同任务规划系统的组成框图。

图3是本发明实施方式提供的一种卫星优化决策系统的组成框图。

图4是本发明实施方式提供的一种卫星进行优化决策的过程示意图。

图5是本发明实施方式提供的一种基于DEC-POMDP的多卫星协同优化决策方法的流程图。

图中标记分别为：

多卫星协同优化决策装置	100
		信念状态信息更新模块	101
优化决策模块	102
		值函数计算模块	103

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，是本发明实施例提供的一种基于DEC-POMDP的多卫星协同优化决策装置100的结构框图。所述多卫星协同优化决策装置100可以应用于具有动态解耦特性的卫星协同任务规划系统包括的卫星。可选地，所述卫星协同任务规划系统包括多个卫星，所述多个卫星可以相互独立地执行协同规划任务。所述多卫星协同优化决策装置100可以包括信念状态信息更新模块101、优化决策模块102和值函数计算模块103。

其中，所述DEC是非集中式系统的英文简称，所述POMDP是部分可见马尔可夫决策过程模型的英文简称。每个卫星都是一个智能体，并且在所述卫星协同任务规划系统的动态特性上没有过多的关联，只是在执行共同受理的观测任务时发生相互作用。所述多个卫星之间存在通信连接，所述多个卫星之间可以相互交换信息和进行协调。因此所述卫星协同任务规划系统具有动态解耦特性。在所述卫星协同任务规划系统中，每个卫星的规划决策通过改变环境信息间接影响到其它卫星的任务规划决策。针对具有动态解耦特性的卫星协同任务规划系统，可以将整个系统划分成多个有限相互独立的卫星优化决策子系统。并分别对每个卫星优化决策子系统进行优化求解，进而建立多卫星协同优化决策装置100。

进一步地，如图2所示，在多卫星协同优化决策装置100的结构下，卫星协同任务规划系统被划分成多个相互独立的决策子系统。所述卫星协同任务规划系统的动作由所有子系统的动作所组成。每个卫星包括一个本地POMDP决策模块，在卫星之间可以通过延迟通信网络进行信息交换。所述信息可以包括各卫星的部分状态信息，所述部分状态信息包括本地优化决策得到的阶段性结果，进而可以实现多个卫星之间的分布式协调。

请一并参阅图3，所述信念状态信息更新模块101根据卫星的本地观测信息和与其它各卫星的交互信息更新信念状态信息信念状态信息是卫星状态的概率分布。

所述优化决策模块102基于信念状态信息计算tk时刻最优的观测动作并得到下一时刻sati的信念状态信息由于延迟通信网络的存在，在协同优化决策过程中的信息交互存在通信延迟，所述延迟通信网络描述了各卫星之间的信息交互能力，决定了优化决策过程中卫星获取信息的内容与通信延迟的程度。可选地，所述优化决策系统通过所述延迟通信网络在DAG(Directed Acyclic Graph，时序有向无圈图)协同规划环境中获取信息。

具体地，所述优化决策的过程如图4所示。假设在当前规划时刻tk，卫星sati根据tk-1时刻的决策结果选择观测节点vF，响应的环境状态信息更新为sati基于环境状态信息的观测更新信念状态信息之后，sati根据信念状态信息并以tk时刻的瞬时报酬值与tk之后折扣报酬期望值做出最优的规划决策得到环境状态信息并计入下一个规划决策时刻tk+1，重复上述过程直至到达虚拟观测节点vE的整个决策过程的结束。

进一步地，所述值函数计算模块103将每个规划决策时刻得到的折扣报酬期望值进行叠加合并，得到所述卫星协同任务规划系统的整体值函数。

可以理解的是，优化决策是POMDP的核心，环境信息无法全部获取的背景下，通过增加信念状态估计，从而保持了马尔可夫性，也即无后效性。这种无后效性表现在在规划过程中某阶段的状态一旦确定，则此后过程的演变不再受此前各状态的影响。也就是说，“未来与过去无关”，当前的状态是此前历史的一个完整总结，此前的历史只能通过当前的状态去影响过程未来的演变，在每一时刻都只根据当前的状态进行优化决策。这种“未来与过去无关”的决策策略与卫星在时序有向无圈图上的任务搜索过程十分吻合。卫星在时序有向无圈图中每一个时刻的决策仅与当前时刻的状态有关而与之前的状态均无关。这样可以忽略历史的影响，一切规划都只要从当前状态出发即可。它所蕴含的思想是将智能体有限的规划能力引导至更有价值的方向。因此，POMDP的优化决策求解的基本思想可以为解决卫星协同规划决策问题提供很好的借鉴。

下面结合图5对上述各功能模块进行详细描述。如图2所示，是本发明实施方式提供的一种基于DEC-POMDP的多卫星协同优化决策方法的流程图。该方法包括以下步骤。

步骤S101：获取当前规划决策时刻的环境观测信息和DAG协同规划环境中其它各卫星的部分状态信息，并基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新。本实施例中，关于所述信念状态信息更新模块101的描述具体可参照步骤S101的描述。也即，该步骤S101可以由所述信念状态信息更新模块101执行。

其中，所述部分可见马尔可夫决策过程模型可以定义为一个七元组<S,A,T,R,Ω,O>。S表示有限状态集合，即决策问题中Agent所有可达的状态集合。A表示Agent所有可能的动作集合。T:S×A→∏(S)是状态转移函数，表示给定状态和动作的前提下，到达下一个状态的概率分布，其中表示处于状态s，执行联合动作a转移到状态s′的概率。为报酬函数，表示在给定目前状态和动作的情况下所获得的瞬时报酬，表示在状态s执行动作a时所能得到的瞬时报酬值。Ω为Agent的有限观测集合。O:A×S→∏(Ω)为观察函数，表示在动作和结果状态s′条件系统可能得到的联合观察的概率分布，O(a,s′,o)表示执行动作a到达状态s′时系统观察到的概率。

进一步地，所述基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新的步骤包括：当信念状态信息属于所述有限状态集合，且执行所述动作集合中的动作时，根据所述状态转移函数中的转移概率分布对卫星自身的信念状态信息进行更新，并根据所述观察函数得到在所述有限观测集合中观察的概率分布O(a,s′,o)。

可选地，所述基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新的步骤还包括：根据贝叶斯准则对卫星自身的信念状态信息进行更新；

定义信念状态更新函数B×Ω×A，

b^{'} (s^{'}) = \Pr (s^{'} | b, a, o) = \frac{O (s^{'}, a, o) Σ_{s &Element; S} T (s, a, s^{'}) b (s)}{\Pr (o | b, a)}

以及

\Pr (o | b, \overset{&RightArrow;}{a}) = Σ_{s^{'} &Element; S} O (s^{'}, a, o) Σ_{s &Element; S} T (s, a, s^{'}) b (s)

步骤S102：根据更新后的信念状态信息计算所述当前规划决策时刻最优的观测动作，并根据所述部分可见马尔可夫决策过程模型获得与所述观测动作相对应的瞬时报酬值。

S103：步骤S103：根据所述瞬时报酬值计算期望折扣报酬值，并计算出使得所述期望折扣报酬值最大化的最优策略，以及得到所述期望折扣报酬值的最大值。

本实施例中，关于所述优化决策模块102的描述具体可参照步骤S102和S103的描述。也即，该步骤S102和步骤S103可以由所述优化决策模块102执行。

具体地，所述卫星协同任务规划系统的状态空间记为S＝{Si},1≤i≤NS，当第i颗卫星的策略方程为π_i时，所述卫星协同任务规划系统的策略方程可以表示为如下形式：

π (b) = [π_{1} (b_{1}), ... π_{N_{S}} (b_{N_{S}})]

所述卫星协同任务规划系统的信念状态更新函数可表示为：

第i颗卫星的信念状态更新函数则可以表示为：

其中，表示第i颗卫星获得的其它卫星的部分状态信息；

V^{*} (b) = \underset{\overset{&RightArrow;}{a} &Element; A}{m a x} [Σ_{s &Element; S} b (s) R (s, \overset{&RightArrow;}{a}) + {γΣ}_{\overset{&RightArrow;}{o} &Element; Ω} \Pr (\overset{&RightArrow;}{o} | b, \overset{&RightArrow;}{a}) V (b^{'})]

其中，所述最优策略π^*为动作系列：

π^{*} (b) = \underset{\overset{&RightArrow;}{a} &Element; A}{argmax} [Σ_{s &Element; S} b (s) R (s, \overset{&RightArrow;}{a}) + {γΣ}_{\overset{&RightArrow;}{o} &Element; Ω} \Pr (\overset{&RightArrow;}{o} | b, \overset{&RightArrow;}{a}) V (b^{'})] .

S104：进入下一规划决策时刻，重复进行步骤S101、S102和S103直至整个规划决策过程的结束，并得到在各规划决策时刻的折扣报酬期望值。

其中，每个卫星循环执行步骤S101、S102和S103，并根据预设的部分可见马尔可夫决策过程模型对得到的信念状态信息进行迭代，直至整个规划决策过程的结束。

S105：将每个规划决策时刻得到的折扣报酬期望值进行叠加合并，得到所述卫星协同任务规划系统的整体值函数。

其中，所述卫星协同任务规划系统的整体值函数是所有NS颗卫星的值函数之和，即表示为如下形式：

V (b) = Σ_{i = 1}^{N_{S}} V_{i} (b_{i}) .

本实施例中，该步骤S105可以由所述值函数计算模块103执行。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于DEC-POMDP的多卫星协同优化决策方法，应用于具有动态解耦特性的卫星协同任务规划系统包括的卫星，所述卫星协同任务规划系统包括多个相互独立的卫星，其特征在于，所述多卫星协同优化决策方法包括：

2.根据权利要求1所述的基于DEC-POMDP的多卫星协同优化决策方法，其特征在于，所述基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新的步骤包括：

3.根据权利要求2所述的基于DEC-POMDP的多卫星协同优化决策方法，其特征在于，所述基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新的步骤还包括：根据贝叶斯准则对卫星自身的信念状态信息进行更新；

定义信念状态更新函数B×Ω×A，

b^{'} (s^{'}) = \Pr (s^{'} | b, a, o) = \frac{O (s^{'}, a, o) Σ_{s &Element; S} T (s, a, s^{'}) b (s)}{\Pr (o | b, a)}

以及

\Pr (o | b, \overset{&RightArrow;}{a}) = Σ_{s^{'} &Element; S} O (s^{'}, a, o) Σ_{s &Element; S} T (s, a, s^{'}) b (s)

4.根据权利要求3所述的基于DEC-POMDP的多卫星协同优化决策方法，其特征在于，

所述卫星协同任务规划系统的状态空间记为S＝{Si},1≤i≤NS，当第i颗卫星的策略方程为π_i时，所述卫星协同任务规划系统的策略方程可以表示为如下形式：

π (b) = [π_{1} (b_{1}), ... π_{N_{S}} (b_{N_{S}})]

所述卫星协同任务规划系统的信念状态更新函数可表示为：

第i颗卫星的信念状态更新函数则可以表示为：

其中，表示第i颗卫星获得的其它卫星的部分状态信息；

V^{*} (b) = \underset{\overset{&RightArrow;}{a} &Element; A}{m a x} [Σ_{s &Element; S} b (s) R (s, \overset{&RightArrow;}{a}) + {γΣ}_{\overset{&RightArrow;}{o} &Element; Ω} \Pr (\overset{&RightArrow;}{o} | b, \overset{&RightArrow;}{a}) V (b^{'})]

其中，所述最优策略π^*为动作系列：

π^{*} (b) = \underset{\overset{&RightArrow;}{a} &Element; A}{argmax} [Σ_{s &Element; S} b (s) R (s, \overset{&RightArrow;}{a}) + {γΣ}_{\overset{&RightArrow;}{o} &Element; Ω} \Pr (\overset{&RightArrow;}{o} | b, \overset{&RightArrow;}{a}) V (b^{'})] .

5.根据权利要求4所述的基于DEC-POMDP的多卫星协同优化决策方法，其特征在于，所述卫星协同任务规划系统的整体值函数是所有NS颗卫星的值函数之和，即表示为如下形式：

V (b) = Σ_{i = 1}^{N_{S}} V_{i} (b_{i}) .

6.一种基于DEC-POMDP的多卫星协同优化决策装置，应用于具有动态解耦特性的卫星协同任务规划系统包括的卫星，所述卫星协同任务规划系统包括多个相互独立的卫星，其特征在于，所述多卫星协同优化决策装置包括：

7.根据权利要求6所述的基于DEC-POMDP的多卫星协同优化决策装置，其特征在于，

所述信念状态信息更新模块还用于在信念状态信息属于所述有限状态集合，且执行所述动作集合中的动作的情况下，根据所述状态转移函数中的转移概率分布对卫星自身的信念状态信息进行更新，并根据所述观察函数得到在所述有限观测集合中观察的概率分布O(a,s′,o)。

8.根据权利要求7所述的基于DEC-POMDP的多卫星协同优化决策装置，其特征在于，

所述信念状态信息更新模块还用于根据贝叶斯准则对卫星自身的信念状态信息进行更新；

定义信念状态更新函数B×Ω×A，

b^{'} (s^{'}) = \Pr (s^{'} | b, a, o) = \frac{O (s^{'}, a, o) Σ_{s &Element; S} T (s, a, s^{'}) b (s)}{\Pr (o | b, a)}

以及

\Pr (o | b, \overset{&RightArrow;}{a}) = Σ_{s^{'} &Element; S} O (s^{'}, a, o) Σ_{s &Element; S} T (s, a, s^{'}) b (s)

9.根据权利要求8所述的基于DEC-POMDP的多卫星协同优化决策装置，其特征在于，

π (b) = [π_{1} (b_{1}), ... π_{N_{S}} (b_{N_{S}})]

所述卫星协同任务规划系统的信念状态更新函数可表示为：

第i颗卫星的信念状态更新函数则可以表示为：

其中，表示第i颗卫星获得的其它卫星的部分状态信息；

V^{*} (b) = \underset{\overset{&RightArrow;}{a} &Element; A}{m a x} [Σ_{s &Element; S} b (s) R (s, \overset{&RightArrow;}{a}) + {γΣ}_{\overset{&RightArrow;}{o} &Element; Ω} \Pr (\overset{&RightArrow;}{o} | b, \overset{&RightArrow;}{a}) V (b^{'})]

其中，所述最优策略π^*为动作系列：

π^{*} (b) = \underset{\overset{&RightArrow;}{a} &Element; A}{argmax} [Σ_{s &Element; S} b (s) R (s, \overset{&RightArrow;}{a}) + {γΣ}_{\overset{&RightArrow;}{o} &Element; Ω} \Pr (\overset{&RightArrow;}{o} | b, \overset{&RightArrow;}{a}) V (b^{'})] .

10.根据权利要求9所述的基于DEC-POMDP的多卫星协同优化决策装置，其特征在于，所述卫星协同任务规划系统的整体值函数是所有NS颗卫星的值函数之和，即表示为如下形式：

V (b) = Σ_{i = 1}^{N_{S}} V_{i} (b_{i}) .