CN105930944A - 一种基于dec-pomdp的多卫星协同优化决策方法及装置 - Google Patents

一种基于dec-pomdp的多卫星协同优化决策方法及装置 Download PDF

Info

Publication number
CN105930944A
CN105930944A CN201610546764.XA CN201610546764A CN105930944A CN 105930944 A CN105930944 A CN 105930944A CN 201610546764 A CN201610546764 A CN 201610546764A CN 105930944 A CN105930944 A CN 105930944A
Authority
CN
China
Prior art keywords
satellite
decision
conviction
rightarrow
prime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610546764.XA
Other languages
English (en)
Inventor
王冲
张海
董志强
刘铭
董相均
关礼安
邵欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF RADAR AND ELECTRONIC COUNTERMEASURE OF CHINESE PLA AIR FORCE EQUIPM
Original Assignee
INSTITUTE OF RADAR AND ELECTRONIC COUNTERMEASURE OF CHINESE PLA AIR FORCE EQUIPM
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF RADAR AND ELECTRONIC COUNTERMEASURE OF CHINESE PLA AIR FORCE EQUIPM filed Critical INSTITUTE OF RADAR AND ELECTRONIC COUNTERMEASURE OF CHINESE PLA AIR FORCE EQUIPM
Priority to CN201610546764.XA priority Critical patent/CN105930944A/zh
Publication of CN105930944A publication Critical patent/CN105930944A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种基于DEC‑POMDP多卫星协同优化决策方法及装置,属于对地观测卫星地面运控技术领域。该方法包括:获取当前规划决策时刻的环境观测信息和DAG协同规划环境中其它各卫星的部分状态信息,并基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新;根据更新后的信念状态信息计算所述当前规划决策时刻最优的观测动作,并获得瞬时报酬值;根据所述瞬时报酬值计算期望折扣报酬值,并计算出使得所述期望折扣报酬值最大化的最优策略,以及得到所述期望折扣报酬值的最大值;将每个规划决策时刻得到的折扣报酬期望值进行叠加合并,得到所述卫星协同任务规划系统的整体值函数。本发明能够实现卫星协同任务规划系统的分布式优化决策。

Description

一种基于DEC-POMDP的多卫星协同优化决策方法及装置
技术领域
本发明涉及对地观测卫星地面运控技术领域,具体而言,涉及一种基于DEC-POMDP的多卫星协同优化决策方法及装置。
背景技术
部分可见马尔可夫决策过程模型(POMDP)是一种用于制定序列决策的经典模型。在POMDP中,智能体做出动作所产生的效果是不确定的,对环境状态信息的观测也是不完整的。因此,POMDP对于表达智能体在非确定环境下的序列决策问题而言,是一种非常有效的模型。
借鉴POMDP的思想,可以将单颗卫星在时序有向无圈图(DAG)中的任务搜索问题转化为决策问题。对于由执行协同规划任务的自治卫星组成的复杂非集中式系统(Decentralized System),该非集中式系统中的每颗卫星都是一个智能体,并且在非集中式系统的动态特性上并没有太多关联,只是通过共同受理的观测任务发生作用,并且通过卫星之间的星际链路交换信息和进行协调。该非集中式系统是具有动态解耦特性的系统。在该具有动态解耦特性的系统中,卫星的规划决策主要通过改变环境信息,并间接影响到其它卫星的任务规划决策,由于卫星观测环境信息的不一致导致了多个卫星协同决策的困难增加。
发明内容
本发明提供了一种基于DEC-POMDP的多卫星协同优化决策方法及装置,旨在针对多个卫星的协同环境观测信息不一致性,有效提高了卫星协同任务规划系统进行分布式优化决策的高效性和准确性。
第一方面,本发明实施例提供的一种基于DEC-POMDP的多卫星协同优化决策方法,应用于具有动态解耦特性的卫星协同任务规划系统包括的卫星,所述卫星协同任务规划系统包括多个相互独立的卫星,所述多卫星协同优化决策方法包括:
获取当前规划决策时刻的环境观测信息和DAG协同规划环境中其它各卫星的部分状态信息,并基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新,其中,所述部分可见马尔可夫决策过程模型包括有限状态集合、动作集合、状态转移函数、报酬函数、有限观测集合和观察函数;
根据更新后的信念状态信息计算所述当前规划决策时刻最优的观测动作,并根据所述部分可见马尔可夫决策过程模型获得与所述观测动作相对应的瞬时报酬值;
根据所述瞬时报酬值计算期望折扣报酬值,并计算出使得所述期望折扣报酬值最大化的最优策略,以及得到所述期望折扣报酬值的最大值;
进入下一规划决策时刻,重复进行以上步骤直至整个规划决策过程的结束,并得到在各规划决策时刻的折扣报酬期望值;
将每个规划决策时刻得到的折扣报酬期望值进行叠加合并,得到所述卫星协同任务规划系统的整体值函数。
优选地,所述基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新的步骤包括:
当信念状态信息属于所述有限状态集合,且执行所述动作集合中的动作时,根据所述状态转移函数中的转移概率分布对卫星自身的信念状态信息进行更新,并根据所述观察函数得到在所述有限观测集合中观察的概率分布O(a,s′,o)。
优选地,所述基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新的步骤还包括:根据贝叶斯准则对卫星自身的信念状态信息进行更新;
定义信念状态更新函数B×Ω×A,
其中,B表示信念状态空间,Ω表示有限观测集合,A表示动作集合,则:
b ′ ( s ′ ) = Pr ( s ′ | b , a , o ) = O ( s ′ , a , o ) Σ s ∈ S T ( s , a , s ′ ) b ( s ) Pr ( o | b , a )
以及
Pr ( o | b , a → ) = Σ s ′ ∈ S O ( s ′ , a , o ) Σ s ∈ S T ( s , a , s ′ ) b ( s )
其中,Pr(o|b,a)为归一化因子,表示在信念状态信息b下执行动作a时得到的观测概率o。
优选地,所述卫星协同任务规划系统的状态空间记为S={Si},1≤i≤NS,当第i颗卫星的策略方程为πi时,所述卫星协同任务规划系统的策略方程可以表示为如下形式:
π ( b ) = [ π 1 ( b 1 ) , ... π N S ( b N S ) ]
所述卫星协同任务规划系统的信念状态更新函数可表示为:
第i颗卫星的信念状态更新函数则可以表示为:
其中,表示第i颗卫星获得的其它卫星的部分状态信息;
在最优策略π*下,每个信念状态信息的折扣报酬期望值组成最优值函数V*,以递归形式表示为:
V * ( b ) = m a x a → ∈ A [ Σ s ∈ S b ( s ) R ( s , a → ) + γΣ o → ∈ Ω Pr ( o → | b , a → ) V ( b ′ ) ]
其中,所述最优策略π*为动作系列:
π * ( b ) = argmax a → ∈ A [ Σ s ∈ S b ( s ) R ( s , a → ) + γΣ o → ∈ Ω Pr ( o → | b , a → ) V ( b ′ ) ] .
优选地,所述卫星协同任务规划系统的整体值函数是所有NS颗卫星的值函数之和,即表示为如下形式:
V ( b ) = Σ i = 1 N S V i ( b i )
第二方面,本发明实施例提供的一种基于DEC-POMDP的多卫星协同优化决策装置,应用于具有动态解耦特性的卫星协同任务规划系统包括的卫星,所述卫星协同任务规划系统包括多个相互独立的卫星,其特征在于,所述多卫星协同优化决策装置包括:
信念状态信息更新模块,用于获取当前规划决策时刻的环境观测信息和DAG协同规划环境中其它各卫星的部分状态信息,并基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新,其中,所述部分可见马尔可夫决策过程模型包括有限状态集合、动作集合、状态转移函数、报酬函数、有限观测集合和观察函数;
优化决策模块,用于根据更新后的信念状态信息计算所述当前规划决策时刻最优的观测动作,并根据所述部分可见马尔可夫决策过程模型获得与所述观测动作相对应的瞬时报酬值;以及根据所述瞬时报酬值计算期望折扣报酬值,并计算出使得所述期望折扣报酬值最大化的最优策略,以及得到所述期望折扣报酬值的最大值;
值函数计算模块,用于将每个规划决策时刻得到的折扣报酬期望值进行叠加合并,得到所述卫星协同任务规划系统的整体值函数。
优选地,所述信念状态信息更新模块还用于在信念状态信息属于所述有限状态集合,且执行所述动作集合中的动作的情况下,根据所述状态转移函数中的转移概率分布对卫星自身的信念状态信息进行更新,并根据所述观察函数得到在所述有限观测集合中观察的概率分布O(a,s′,o)。
优选地,所述信念状态信息更新模块还用于根据贝叶斯准则对卫星自身的信念状态信息进行更新;
定义信念状态更新函数B×Ω×A,
其中,B表示信念状态空间,Ω表示有限观测集合,A表示动作集合,则:
b ′ ( s ′ ) = Pr ( s ′ | b , a , o ) = O ( s ′ , a , o ) Σ s ∈ S T ( s , a , s ′ ) b ( s ) Pr ( o | b , a )
以及
Pr ( o | b , a → ) = Σ s ′ ∈ S O ( s ′ , a , o ) Σ s ∈ S T ( s , a , s ′ ) b ( s )
其中,Pr(o|b,a)为归一化因子,表示在信念状态信息b下执行动作a时得到的观测概率o。
优选地,所述卫星协同任务规划系统的状态空间记为S={Si},1≤i≤NS,当第i颗卫星的策略方程为πi时,所述卫星协同任务规划系统的策略方程可以表示为如下形式:
π ( b ) = [ π 1 ( b 1 ) , ... π N S ( b N S ) ]
所述卫星协同任务规划系统的信念状态更新函数可表示为:
第i颗卫星的信念状态更新函数则可以表示为:
其中,表示第i颗卫星获得的其它卫星的部分状态信息;
在最优策略π*下,每个信念状态信息的折扣报酬期望值组成最优值函数V*,以递归形式表示为:
V * ( b ) = m a x a → ∈ A [ Σ s ∈ S b ( s ) R ( s , a → ) + γΣ o → ∈ Ω Pr ( o → | b , a → ) V ( b ′ ) ]
其中,所述最优策略π*为动作系列:
π * ( b ) = argmax a → ∈ A [ Σ s ∈ S b ( s ) R ( s , a → ) + γΣ o → ∈ Ω Pr ( o → | b , a → ) V ( b ′ ) ] .
优选地,所述卫星协同任务规划系统的整体值函数是所有NS颗卫星的值函数之和,即表示为如下形式:
V ( b ) = Σ i = 1 N S V i ( b i ) .
本发明实施例提供的一种基于DEC-POMDP多卫星协同优化决策方法及装置,根据获取的环境观测信息和其它各卫星的部分状态信息,为了适应信念状态信息的无后效性要求,基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新,并计算出最优的观测动作,以及获得与所述观测动作相对应的瞬时报酬值和期望折扣报酬值,从而计算出使得所述期望折扣报酬值最大化的最优策略。如此,有效提高了卫星协同任务规划系统进行分布式优化决策的高效性和准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应该看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施方式提供的一种基于DEC-POMDP的多卫星协同优化决策装置的功能模块框图。
图2是本发明实施方式提供的一种卫星协同任务规划系统的组成框图。
图3是本发明实施方式提供的一种卫星优化决策系统的组成框图。
图4是本发明实施方式提供的一种卫星进行优化决策的过程示意图。
图5是本发明实施方式提供的一种基于DEC-POMDP的多卫星协同优化决策方法的流程图。
图中标记分别为:
多卫星协同优化决策装置 100
信念状态信息更新模块 101
优化决策模块 102
值函数计算模块 103
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,是本发明实施例提供的一种基于DEC-POMDP的多卫星协同优化决策装置100的结构框图。所述多卫星协同优化决策装置100可以应用于具有动态解耦特性的卫星协同任务规划系统包括的卫星。可选地,所述卫星协同任务规划系统包括多个卫星,所述多个卫星可以相互独立地执行协同规划任务。所述多卫星协同优化决策装置100可以包括信念状态信息更新模块101、优化决策模块102和值函数计算模块103。
其中,所述DEC是非集中式系统的英文简称,所述POMDP是部分可见马尔可夫决策过程模型的英文简称。每个卫星都是一个智能体,并且在所述卫星协同任务规划系统的动态特性上没有过多的关联,只是在执行共同受理的观测任务时发生相互作用。所述多个卫星之间存在通信连接,所述多个卫星之间可以相互交换信息和进行协调。因此所述卫星协同任务规划系统具有动态解耦特性。在所述卫星协同任务规划系统中,每个卫星的规划决策通过改变环境信息间接影响到其它卫星的任务规划决策。针对具有动态解耦特性的卫星协同任务规划系统,可以将整个系统划分成多个有限相互独立的卫星优化决策子系统。并分别对每个卫星优化决策子系统进行优化求解,进而建立多卫星协同优化决策装置100。
进一步地,如图2所示,在多卫星协同优化决策装置100的结构下,卫星协同任务规划系统被划分成多个相互独立的决策子系统。所述卫星协同任务规划系统的动作由所有子系统的动作所组成。每个卫星包括一个本地POMDP决策模块,在卫星之间可以通过延迟通信网络进行信息交换。所述信息可以包括各卫星的部分状态信息,所述部分状态信息包括本地优化决策得到的阶段性结果,进而可以实现多个卫星之间的分布式协调。
请一并参阅图3,所述信念状态信息更新模块101根据卫星的本地观测信息和与其它各卫星的交互信息更新信念状态信息信念状态信息是卫星状态的概率分布。
所述优化决策模块102基于信念状态信息计算tk时刻最优的观测动作并得到下一时刻sati的信念状态信息由于延迟通信网络的存在,在协同优化决策过程中的信息交互存在通信延迟,所述延迟通信网络描述了各卫星之间的信息交互能力,决定了优化决策过程中卫星获取信息的内容与通信延迟的程度。可选地,所述优化决策系统通过所述延迟通信网络在DAG(Directed Acyclic Graph,时序有向无圈图)协同规划环境中获取信息。
具体地,所述优化决策的过程如图4所示。假设在当前规划时刻tk,卫星sati根据tk-1时刻的决策结果选择观测节点vF,响应的环境状态信息更新为sati基于环境状态信息的观测更新信念状态信息之后,sati根据信念状态信息并以tk时刻的瞬时报酬值与tk之后折扣报酬期望值做出最优的规划决策得到环境状态信息并计入下一个规划决策时刻tk+1,重复上述过程直至到达虚拟观测节点vE的整个决策过程的结束。
进一步地,所述值函数计算模块103将每个规划决策时刻得到的折扣报酬期望值进行叠加合并,得到所述卫星协同任务规划系统的整体值函数。
可以理解的是,优化决策是POMDP的核心,环境信息无法全部获取的背景下,通过增加信念状态估计,从而保持了马尔可夫性,也即无后效性。这种无后效性表现在在规划过程中某阶段的状态一旦确定,则此后过程的演变不再受此前各状态的影响。也就是说,“未来与过去无关”,当前的状态是此前历史的一个完整总结,此前的历史只能通过当前的状态去影响过程未来的演变,在每一时刻都只根据当前的状态进行优化决策。这种“未来与过去无关”的决策策略与卫星在时序有向无圈图上的任务搜索过程十分吻合。卫星在时序有向无圈图中每一个时刻的决策仅与当前时刻的状态有关而与之前的状态均无关。这样可以忽略历史的影响,一切规划都只要从当前状态出发即可。它所蕴含的思想是将智能体有限的规划能力引导至更有价值的方向。因此,POMDP的优化决策求解的基本思想可以为解决卫星协同规划决策问题提供很好的借鉴。
下面结合图5对上述各功能模块进行详细描述。如图2所示,是本发明实施方式提供的一种基于DEC-POMDP的多卫星协同优化决策方法的流程图。该方法包括以下步骤。
步骤S101:获取当前规划决策时刻的环境观测信息和DAG协同规划环境中其它各卫星的部分状态信息,并基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新。本实施例中,关于所述信念状态信息更新模块101的描述具体可参照步骤S101的描述。也即,该步骤S101可以由所述信念状态信息更新模块101执行。
其中,所述部分可见马尔可夫决策过程模型可以定义为一个七元组<S,A,T,R,Ω,O>。S表示有限状态集合,即决策问题中Agent所有可达的状态集合。A表示Agent所有可能的动作集合。T:S×A→∏(S)是状态转移函数,表示给定状态和动作的前提下,到达下一个状态的概率分布,其中表示处于状态s,执行联合动作a转移到状态s′的概率。为报酬函数,表示在给定目前状态和动作的情况下所获得的瞬时报酬,表示在状态s执行动作a时所能得到的瞬时报酬值。Ω为Agent的有限观测集合。O:A×S→∏(Ω)为观察函数,表示在动作和结果状态s′条件系统可能得到的联合观察的概率分布,O(a,s′,o)表示执行动作a到达状态s′时系统观察到的概率。
进一步地,所述基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新的步骤包括:当信念状态信息属于所述有限状态集合,且执行所述动作集合中的动作时,根据所述状态转移函数中的转移概率分布对卫星自身的信念状态信息进行更新,并根据所述观察函数得到在所述有限观测集合中观察的概率分布O(a,s′,o)。
可选地,所述基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新的步骤还包括:根据贝叶斯准则对卫星自身的信念状态信息进行更新;
定义信念状态更新函数B×Ω×A,
其中,B表示信念状态空间,Ω表示有限观测集合,A表示动作集合,则:
b &prime; ( s &prime; ) = Pr ( s &prime; | b , a , o ) = O ( s &prime; , a , o ) &Sigma; s &Element; S T ( s , a , s &prime; ) b ( s ) Pr ( o | b , a )
以及
Pr ( o | b , a &RightArrow; ) = &Sigma; s &prime; &Element; S O ( s &prime; , a , o ) &Sigma; s &Element; S T ( s , a , s &prime; ) b ( s )
其中,Pr(o|b,a)为归一化因子,表示在信念状态信息b下执行动作a时得到的观测概率o。
步骤S102:根据更新后的信念状态信息计算所述当前规划决策时刻最优的观测动作,并根据所述部分可见马尔可夫决策过程模型获得与所述观测动作相对应的瞬时报酬值。
S103:步骤S103:根据所述瞬时报酬值计算期望折扣报酬值,并计算出使得所述期望折扣报酬值最大化的最优策略,以及得到所述期望折扣报酬值的最大值。
本实施例中,关于所述优化决策模块102的描述具体可参照步骤S102和S103的描述。也即,该步骤S102和步骤S103可以由所述优化决策模块102执行。
具体地,所述卫星协同任务规划系统的状态空间记为S={Si},1≤i≤NS,当第i颗卫星的策略方程为πi时,所述卫星协同任务规划系统的策略方程可以表示为如下形式:
&pi; ( b ) = &lsqb; &pi; 1 ( b 1 ) , ... &pi; N S ( b N S ) &rsqb;
所述卫星协同任务规划系统的信念状态更新函数可表示为:
第i颗卫星的信念状态更新函数则可以表示为:
其中,表示第i颗卫星获得的其它卫星的部分状态信息;
在最优策略π*下,每个信念状态信息的折扣报酬期望值组成最优值函数V*,以递归形式表示为:
V * ( b ) = m a x a &RightArrow; &Element; A &lsqb; &Sigma; s &Element; S b ( s ) R ( s , a &RightArrow; ) + &gamma;&Sigma; o &RightArrow; &Element; &Omega; Pr ( o &RightArrow; | b , a &RightArrow; ) V ( b &prime; ) &rsqb;
其中,所述最优策略π*为动作系列:
&pi; * ( b ) = argmax a &RightArrow; &Element; A &lsqb; &Sigma; s &Element; S b ( s ) R ( s , a &RightArrow; ) + &gamma;&Sigma; o &RightArrow; &Element; &Omega; Pr ( o &RightArrow; | b , a &RightArrow; ) V ( b &prime; ) &rsqb; .
S104:进入下一规划决策时刻,重复进行步骤S101、S102和S103直至整个规划决策过程的结束,并得到在各规划决策时刻的折扣报酬期望值。
其中,每个卫星循环执行步骤S101、S102和S103,并根据预设的部分可见马尔可夫决策过程模型对得到的信念状态信息进行迭代,直至整个规划决策过程的结束。
S105:将每个规划决策时刻得到的折扣报酬期望值进行叠加合并,得到所述卫星协同任务规划系统的整体值函数。
其中,所述卫星协同任务规划系统的整体值函数是所有NS颗卫星的值函数之和,即表示为如下形式:
V ( b ) = &Sigma; i = 1 N S V i ( b i ) .
本实施例中,该步骤S105可以由所述值函数计算模块103执行。
本发明实施例提供的一种基于DEC-POMDP多卫星协同优化决策方法及装置,根据获取的环境观测信息和其它各卫星的部分状态信息,为了适应信念状态信息的无后效性要求,基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新,并计算出最优的观测动作,以及获得与所述观测动作相对应的瞬时报酬值和期望折扣报酬值,从而计算出使得所述期望折扣报酬值最大化的最优策略。如此,有效提高了卫星协同任务规划系统进行分布式优化决策的高效性和准确性。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于DEC-POMDP的多卫星协同优化决策方法,应用于具有动态解耦特性的卫星协同任务规划系统包括的卫星,所述卫星协同任务规划系统包括多个相互独立的卫星,其特征在于,所述多卫星协同优化决策方法包括:
获取当前规划决策时刻的环境观测信息和DAG协同规划环境中其它各卫星的部分状态信息,并基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新,其中,所述部分可见马尔可夫决策过程模型包括有限状态集合、动作集合、状态转移函数、报酬函数、有限观测集合和观察函数;
根据更新后的信念状态信息计算所述当前规划决策时刻最优的观测动作,并根据所述部分可见马尔可夫决策过程模型获得与所述观测动作相对应的瞬时报酬值;
根据所述瞬时报酬值计算期望折扣报酬值,并计算出使得所述期望折扣报酬值最大化的最优策略,以及得到所述期望折扣报酬值的最大值;
进入下一规划决策时刻,重复进行以上步骤直至整个规划决策过程的结束,并得到在各规划决策时刻的折扣报酬期望值;
将每个规划决策时刻得到的折扣报酬期望值进行叠加合并,得到所述卫星协同任务规划系统的整体值函数。
2.根据权利要求1所述的基于DEC-POMDP的多卫星协同优化决策方法,其特征在于,所述基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新的步骤包括:
当信念状态信息属于所述有限状态集合,且执行所述动作集合中的动作时,根据所述状态转移函数中的转移概率分布对卫星自身的信念状态信息进行更新,并根据所述观察函数得到在所述有限观测集合中观察的概率分布O(a,s′,o)。
3.根据权利要求2所述的基于DEC-POMDP的多卫星协同优化决策方法,其特征在于,所述基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新的步骤还包括:根据贝叶斯准则对卫星自身的信念状态信息进行更新;
定义信念状态更新函数B×Ω×A,
其中,B表示信念状态空间,Ω表示有限观测集合,A表示动作集合,则:
b &prime; ( s &prime; ) = Pr ( s &prime; | b , a , o ) = O ( s &prime; , a , o ) &Sigma; s &Element; S T ( s , a , s &prime; ) b ( s ) Pr ( o | b , a )
以及
Pr ( o | b , a &RightArrow; ) = &Sigma; s &prime; &Element; S O ( s &prime; , a , o ) &Sigma; s &Element; S T ( s , a , s &prime; ) b ( s )
其中,Pr(o|b,a)为归一化因子,表示在信念状态信息b下执行动作a时得到的观测概率o。
4.根据权利要求3所述的基于DEC-POMDP的多卫星协同优化决策方法,其特征在于,
所述卫星协同任务规划系统的状态空间记为S={Si},1≤i≤NS,当第i颗卫星的策略方程为πi时,所述卫星协同任务规划系统的策略方程可以表示为如下形式:
&pi; ( b ) = &lsqb; &pi; 1 ( b 1 ) , ... &pi; N S ( b N S ) &rsqb;
所述卫星协同任务规划系统的信念状态更新函数可表示为:
第i颗卫星的信念状态更新函数则可以表示为:
其中, 表示第i颗卫星获得的其它卫星的部分状态信息;
在最优策略π*下,每个信念状态信息的折扣报酬期望值组成最优值函数V*,以递归形式表示为:
V * ( b ) = m a x a &RightArrow; &Element; A &lsqb; &Sigma; s &Element; S b ( s ) R ( s , a &RightArrow; ) + &gamma;&Sigma; o &RightArrow; &Element; &Omega; Pr ( o &RightArrow; | b , a &RightArrow; ) V ( b &prime; ) &rsqb;
其中,所述最优策略π*为动作系列:
&pi; * ( b ) = argmax a &RightArrow; &Element; A &lsqb; &Sigma; s &Element; S b ( s ) R ( s , a &RightArrow; ) + &gamma;&Sigma; o &RightArrow; &Element; &Omega; Pr ( o &RightArrow; | b , a &RightArrow; ) V ( b &prime; ) &rsqb; .
5.根据权利要求4所述的基于DEC-POMDP的多卫星协同优化决策方法,其特征在于,所述卫星协同任务规划系统的整体值函数是所有NS颗卫星的值函数之和,即表示为如下形式:
V ( b ) = &Sigma; i = 1 N S V i ( b i ) .
6.一种基于DEC-POMDP的多卫星协同优化决策装置,应用于具有动态解耦特性的卫星协同任务规划系统包括的卫星,所述卫星协同任务规划系统包括多个相互独立的卫星,其特征在于,所述多卫星协同优化决策装置包括:
信念状态信息更新模块,用于获取当前规划决策时刻的环境观测信息和DAG协同规划环境中其它各卫星的部分状态信息,并基于预设的部分可见马尔可夫决策过程模型对卫星自身的信念状态信息进行更新,其中,所述部分可见马尔可夫决策过程模型包括有限状态集合、动作集合、状态转移函数、报酬函数、有限观测集合和观察函数;
优化决策模块,用于根据更新后的信念状态信息计算所述当前规划决策时刻最优的观测动作,并根据所述部分可见马尔可夫决策过程模型获得与所述观测动作相对应的瞬时报酬值;以及根据所述瞬时报酬值计算期望折扣报酬值,并计算出使得所述期望折扣报酬值最大化的最优策略,以及得到所述期望折扣报酬值的最大值;
值函数计算模块,用于将每个规划决策时刻得到的折扣报酬期望值进行叠加合并,得到所述卫星协同任务规划系统的整体值函数。
7.根据权利要求6所述的基于DEC-POMDP的多卫星协同优化决策装置,其特征在于,
所述信念状态信息更新模块还用于在信念状态信息属于所述有限状态集合,且执行所述动作集合中的动作的情况下,根据所述状态转移函数中的转移概率分布对卫星自身的信念状态信息进行更新,并根据所述观察函数得到在所述有限观测集合中观察的概率分布O(a,s′,o)。
8.根据权利要求7所述的基于DEC-POMDP的多卫星协同优化决策装置,其特征在于,
所述信念状态信息更新模块还用于根据贝叶斯准则对卫星自身的信念状态信息进行更新;
定义信念状态更新函数B×Ω×A,
其中,B表示信念状态空间,Ω表示有限观测集合,A表示动作集合,则:
b &prime; ( s &prime; ) = Pr ( s &prime; | b , a , o ) = O ( s &prime; , a , o ) &Sigma; s &Element; S T ( s , a , s &prime; ) b ( s ) Pr ( o | b , a )
以及
Pr ( o | b , a &RightArrow; ) = &Sigma; s &prime; &Element; S O ( s &prime; , a , o ) &Sigma; s &Element; S T ( s , a , s &prime; ) b ( s )
其中,Pr(o|b,a)为归一化因子,表示在信念状态信息b下执行动作a时得到的观测概率o。
9.根据权利要求8所述的基于DEC-POMDP的多卫星协同优化决策装置,其特征在于,
所述卫星协同任务规划系统的状态空间记为S={Si},1≤i≤NS,当第i颗卫星的策略方程为πi时,所述卫星协同任务规划系统的策略方程可以表示为如下形式:
&pi; ( b ) = &lsqb; &pi; 1 ( b 1 ) , ... &pi; N S ( b N S ) &rsqb;
所述卫星协同任务规划系统的信念状态更新函数可表示为:
第i颗卫星的信念状态更新函数则可以表示为:
其中, 表示第i颗卫星获得的其它卫星的部分状态信息;
在最优策略π*下,每个信念状态信息的折扣报酬期望值组成最优值函数V*,以递归形式表示为:
V * ( b ) = m a x a &RightArrow; &Element; A &lsqb; &Sigma; s &Element; S b ( s ) R ( s , a &RightArrow; ) + &gamma;&Sigma; o &RightArrow; &Element; &Omega; Pr ( o &RightArrow; | b , a &RightArrow; ) V ( b &prime; ) &rsqb;
其中,所述最优策略π*为动作系列:
&pi; * ( b ) = argmax a &RightArrow; &Element; A &lsqb; &Sigma; s &Element; S b ( s ) R ( s , a &RightArrow; ) + &gamma;&Sigma; o &RightArrow; &Element; &Omega; Pr ( o &RightArrow; | b , a &RightArrow; ) V ( b &prime; ) &rsqb; .
10.根据权利要求9所述的基于DEC-POMDP的多卫星协同优化决策装置,其特征在于,所述卫星协同任务规划系统的整体值函数是所有NS颗卫星的值函数之和,即表示为如下形式:
V ( b ) = &Sigma; i = 1 N S V i ( b i ) .
CN201610546764.XA 2016-07-12 2016-07-12 一种基于dec-pomdp的多卫星协同优化决策方法及装置 Pending CN105930944A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610546764.XA CN105930944A (zh) 2016-07-12 2016-07-12 一种基于dec-pomdp的多卫星协同优化决策方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610546764.XA CN105930944A (zh) 2016-07-12 2016-07-12 一种基于dec-pomdp的多卫星协同优化决策方法及装置

Publications (1)

Publication Number Publication Date
CN105930944A true CN105930944A (zh) 2016-09-07

Family

ID=56827219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610546764.XA Pending CN105930944A (zh) 2016-07-12 2016-07-12 一种基于dec-pomdp的多卫星协同优化决策方法及装置

Country Status (1)

Country Link
CN (1) CN105930944A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107957895A (zh) * 2017-12-01 2018-04-24 中国人民解放军国防科技大学 敏捷对地卫星的协调控制策略
CN108319852A (zh) * 2018-02-08 2018-07-24 北京安信天行科技有限公司 一种事件判别策略创建方法及装置
CN109088667A (zh) * 2017-12-06 2018-12-25 中国人民解放军国防科技大学 一种面向简单任务的同构多星在线协同方法
CN110046800A (zh) * 2019-03-14 2019-07-23 南京航空航天大学 面向空间目标协同观测的卫星集群构形调整规划方法
CN111367317A (zh) * 2020-03-27 2020-07-03 中国人民解放军国防科技大学 基于贝叶斯学习的无人机集群在线任务规划方法
CN112356031A (zh) * 2020-11-11 2021-02-12 福州大学 一种基于Kernel采样策略在不确定性环境下的在线规划方法
CN113537782A (zh) * 2021-07-19 2021-10-22 福州大学 基于合同网的多卫星态势感知系统分布式任务规划方法
CN115390458A (zh) * 2022-10-28 2022-11-25 中国电子科技集团公司第五十四研究所 一种面向信息交互的智能体双层解耦状态控制方法及系统
CN116055322A (zh) * 2022-10-30 2023-05-02 国网江苏省电力有限公司盐城供电分公司 一种多设备协同工作方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王冲: "基于Agent的对地观测卫星分布式协同任务规划研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107957895A (zh) * 2017-12-01 2018-04-24 中国人民解放军国防科技大学 敏捷对地卫星的协调控制策略
CN107957895B (zh) * 2017-12-01 2020-05-19 中国人民解放军国防科技大学 敏捷对地卫星的协调控制策略
CN109088667B (zh) * 2017-12-06 2020-09-11 中国人民解放军国防科技大学 一种面向简单任务的同构多星在线协同方法
CN109088667A (zh) * 2017-12-06 2018-12-25 中国人民解放军国防科技大学 一种面向简单任务的同构多星在线协同方法
CN108319852A (zh) * 2018-02-08 2018-07-24 北京安信天行科技有限公司 一种事件判别策略创建方法及装置
CN108319852B (zh) * 2018-02-08 2022-05-06 北京安信天行科技有限公司 一种事件判别策略创建方法及装置
CN110046800A (zh) * 2019-03-14 2019-07-23 南京航空航天大学 面向空间目标协同观测的卫星集群构形调整规划方法
CN111367317A (zh) * 2020-03-27 2020-07-03 中国人民解放军国防科技大学 基于贝叶斯学习的无人机集群在线任务规划方法
CN112356031A (zh) * 2020-11-11 2021-02-12 福州大学 一种基于Kernel采样策略在不确定性环境下的在线规划方法
CN112356031B (zh) * 2020-11-11 2022-04-01 福州大学 一种基于Kernel采样策略在不确定性环境下的在线规划方法
CN113537782A (zh) * 2021-07-19 2021-10-22 福州大学 基于合同网的多卫星态势感知系统分布式任务规划方法
CN113537782B (zh) * 2021-07-19 2023-08-18 福州大学 基于合同网的多卫星态势感知系统分布式任务规划方法
CN115390458A (zh) * 2022-10-28 2022-11-25 中国电子科技集团公司第五十四研究所 一种面向信息交互的智能体双层解耦状态控制方法及系统
CN116055322A (zh) * 2022-10-30 2023-05-02 国网江苏省电力有限公司盐城供电分公司 一种多设备协同工作方法

Similar Documents

Publication Publication Date Title
CN105930944A (zh) 一种基于dec-pomdp的多卫星协同优化决策方法及装置
Premkumar et al. MOSMA: Multi-objective slime mould algorithm based on elitist non-dominated sorting
Bhattacharyya et al. Simulating emergent properties of human driving behavior using multi-agent reward augmented imitation learning
Whitbrook et al. Reliable, distributed scheduling and rescheduling for time-critical, multiagent systems
CN106990792B (zh) 混合引力搜索算法的多无人机协同时序耦合任务分配方法
CN110717627B (zh) 一种基于对偶图框架的全量交通预测方法
Maniak et al. Value management for exploration projects
Kebriaei et al. Model-based and learning-based decision making in incomplete information cournot games: a state estimation approach
CN112013829A (zh) 基于多目标优化的多uav/ugv协同长时作业路径规划方法
Kalweit et al. Deep inverse q-learning with constraints
CN105844508A (zh) 一种基于动态周期神经网络的商品推荐方法
Çetin Demirel et al. Novel search space updating heuristics-based genetic algorithm for optimizing medium-scale airline crew pairing problems
CN106203616A (zh) 神经网络模型训练装置和方法
CN103605493B (zh) 基于图形处理单元的并行排序学习方法及系统
CN105910611A (zh) 基于匹配度反馈的道路匹配方法
Marie-Sainte et al. Air passenger demand forecasting using particle swarm optimization and firefly algorithm
Paul et al. A graph-based reinforcement learning framework for urban air mobility fleet scheduling
Pan et al. Semantic predictive control for explainable and efficient policy learning
Banerjee et al. A survey on physics informed reinforcement learning: Review and open problems
Mutingi et al. Home Health Care staff scheduling: Effective grouping approaches
Huo et al. Tensor-based cooperative control for large scale multi-intersection traffic signal using deep reinforcement learning and imitation learning
CN113760506A (zh) 改进遗传算法求解多星协同对地观测任务调度方法与装置
Li et al. Notice of Retraction: A Learning Tool of Genetic Algorithm
Hu et al. Decision-making for connected and automated vehicles in chanllenging traffic conditions using imitation and deep reinforcement learning
CN116880218B (zh) 基于驾驶风格误解的鲁棒驾驶策略生成方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160907

RJ01 Rejection of invention patent application after publication