CN117170392A - 轨道威胁环境下的启发式航天器自主规避任务规划方法 - Google Patents
轨道威胁环境下的启发式航天器自主规避任务规划方法 Download PDFInfo
- Publication number
- CN117170392A CN117170392A CN202311049876.0A CN202311049876A CN117170392A CN 117170392 A CN117170392 A CN 117170392A CN 202311049876 A CN202311049876 A CN 202311049876A CN 117170392 A CN117170392 A CN 117170392A
- Authority
- CN
- China
- Prior art keywords
- spacecraft
- action
- planning
- threat
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000009471 action Effects 0.000 claims abstract description 196
- 230000000694 effects Effects 0.000 claims abstract description 71
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 230000008859 change Effects 0.000 claims description 27
- 230000006399 behavior Effects 0.000 claims description 25
- 230000001052 transient effect Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 19
- 230000002844 continuous effect Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 8
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000009021 linear effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000003384 imaging method Methods 0.000 claims description 4
- 230000000670 limiting effect Effects 0.000 claims description 4
- 230000008092 positive effect Effects 0.000 claims description 4
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000011158 quantitative evaluation Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000001419 dependent effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000000446 fuel Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000979 retarding effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了轨道威胁环境下的启发式航天器自主规避任务规划方法,包括:对航天器进行初始化配置;建立航天器轨道威胁自主规避的任务规划模型;设计航天器自主规避架构;设置两阶段规划策略,在规划的第一阶段继续进行观测任务,如果在规避行为决策中需要通过航天器的动作来规避轨道威胁,观测任务立即中断,并进行第二阶段的规划,第二阶段的规划用于规避轨道威胁;对规划问题进行时间约束推理和包含资源变量的数字效应推理;检查每个状态下相互作用的时间约束和资源变量约束的一致性;采用时间松弛规划图启发式指导规划通过搜索空间到达目标;本发明的优点在于:实现航天器自主及时处置空间威胁。
Description
技术领域
本发明涉及航天器任务规划领域,具体涉及轨道威胁环境下的启发式航天器自主规避任务规划方法。
背景技术
然而,轨道空间日益拥挤、碰撞风险激增,太空竞争加剧、袭扰增多,给航天器任务执行带来了更多不确定性因素。可见,若无法对空间威胁进行有效处置,将严重影响航天器在轨运行的安全性和业务的连续性。同时,为了避免“星地大回路”造成的时延,就必须增强航天器自主及时处置空间威胁等不确定性的能力。
中国专利公开号CN114638082A公开了一种通用的航天器启发式时态规划建模、求解方法,其特征在于:充分结合航天工程任务特点和实际需求,提出一种航天器领域通用模型及其数学表达,采用时态网络结构图表示航天器巡视探测状态转移的时间约束和能源约束,采用前向剪枝策略对网络结构图进行约束传播和问题求解,设计实现了一种基于最大时间跨度的启发式控制函数进行问题松弛,以提高求解效率。该方法所构建的领域模型表达更加完整,采用的时态网络结构图技术降低了规划求解计算的复杂度,且极大的简化了算法设计的复杂度。其主要是构建航天器领域通用模型,围绕该模型进行求解和计算,但是没有对航天器自主及时处置空间威胁进行相关描述。
发明内容
本发明所要解决的技术问题在于如何提升航天器自主及时处置空间威胁等不确定性的能力。
本发明通过以下技术手段解决上述技术问题:轨道威胁环境下的启发式航天器自主规避任务规划方法,包括:
步骤一:对航天器进行初始化配置;
步骤二:建立航天器轨道威胁自主规避的任务规划模型;
步骤三:分析航天器轨道威胁的场景,基于自主规避的任务需求,设计航天器自主规避架构;
步骤四:设置两阶段规划策略,在规划的第一阶段继续进行观测任务,在规避行为决策中,如果当前的轨道威胁对航天器不会造成伤害,则不需要规避,则整个规划中止,如果在规避行为决策中需要通过航天器的动作来规避轨道威胁,观测任务立即中断,并进行第二阶段的规划,第二阶段的规划用于规避轨道威胁;
步骤五:对规划问题进行时间约束推理和包含资源变量的数字效应推理,使资源变量在动态变化的过程中满足持续时间动作的执行;
步骤六:检查每个状态下相互作用的时间约束和资源变量约束的一致性,将不能满足时间约束的状态删除;
步骤七:采用时间松弛规划图启发式指导规划通过搜索空间到达目标。
进一步地,所述步骤二包括:
航天器轨道威胁自主规避的任务规划模型表示为八元组
Π=<F,I,G,V,A,Q,P,C>
其中,F是航天器状态成立的事实;是初始航天器状态;/>是航天器实现威胁规避所需维持的目标状态;V是航天器资源的集合;A是一组能够改变航天器状态及其效果的动作,每个动作表示为/>N是动作的名称,dur是动作的持续时间,durmin和durmax分别是act的最小和最大持续时间,pre为前提条件,包括开始条件结束条件pre⊥和不变条件/>eff是效果,包含开始效果/>和结束效果eff⊥;Q是记录事件队列中执行已开始但未结束的动作;P表示从初始状态到当前状态的动作顺序;C是规划中动作的一组时间约束。
更进一步地,所述步骤三中设计航天器自主规避架构包括可见光相机、全域相机、红外相机、微波雷达、激光雷达、多传感器信息融合单元、威胁目标行为信息计算单元、威胁等级推理单元、规避行为决策单元以及动作序列规划单元,采用全域、红外、激光、微波四种探测手段,根据所处的太空环境条件对传感器进行组合,对威胁目标的搜索捕获,并对威胁目标进行初始测距、测角,通过不同传感器设备间信息互补实现威胁识别,其次通过对传感器信息的融合,获取威胁目标的速度、距离、方位角信息,从而获取威胁目标的异动行为特征,目标轨道参数和碰撞概率;可见光相机实现近距离的成像获取形态特征;结合处理后的目标信息及航天器自身姿轨参数进行融合推理,得到对目标的威胁类别与威胁等级的定量评价,对航天器应采取的具体规避行为进行推理决策,预估威胁目标未来的动作行为,求解出实现威胁规避的最优轨迹;实时的将航天器自身参数反馈给威胁等级推理单元和动作序列规划单元。
更进一步地,所述步骤五包括:
步骤5.1:将任务规划模型中每个持续时间动作act分解为两个非时间瞬时动作,形式为<pre,eff>,其中,表示开始瞬时动作,act⊥=<pre⊥,eff⊥>表示结束瞬时动作,规划中的每个状态表示为S=<F,V,Q,P,C>,应用动作act时,只有当act的效果与Q中任何动作的不变量不冲突时,才能应用act,并且根据其效果更新F和V,在将每个动作添加到规划时,都更新C;
步骤5.2:对于资源变量V,状态中有记录其下限值和上限值的向量Vmax和Vmin,存在连续数值变化的情况下,资源变量的值取决于时间。
更进一步地,所述步骤5.1还包括:
每个规划步骤都有一个唯一索引,每个状态下的每个事实都用以下信息进行表示:
F+(p)(F-(p))分别给出了最近添加、删除事实p的步骤i索引;
FP(p)是一组对<i,d>具有前提条件p的步骤,i是步骤索引,d∈{0,ε},ε表示时间间隔,如果d=0,记录步骤i是在一个区间的末尾,在此期间p需要保持,在这种情况下,i是一个动作的结束步骤,其中p是一个不变量条件;如果d=ε,记录步骤i是p需要保持的一个间隔开始,对应于与步骤i相关的开始或结束条件;
在规划的步骤i中应用启动操作时,将向规划添加以下约束:
对于每个添加时间约束t(sstep)≥t(S.F+(p))+ε,其中,/>表示添加开始动作/>航天器需要满足的状态事实p,S.F+(p)代表航天器状态S中最近添加事实p的步骤i索引,t(S.F+(p))代表步骤索引S.F+(p)的时间戳,t(sstep)表示添加/>步骤索引sstep的时间戳,实现p的步骤被提前到步骤i之前;对于/>的每个负效应p,将p从状态中移除,添加约束t(sstep)≥t(i)+ε,使删除步骤i发生在任何需要p的动作之后,其中t(i)表示步骤i索引的时间戳,负效应p表示添加完动作后删除航天器的一些状态;对于的每个正效应p,将p添加到状态,添加约束t(sstep)≥t(S.F-(p)+ε,并且步骤i被记录为p的实现步骤,其中t(S.F-(p)表示步骤索引S.F-(p)的时间戳,S.F-(p)是状态S中最近删除事实p的步骤索引,正效应p表示添加完动作后增加航天器的一些状态;对于每个不变量如果/>没有实现p,添加约束t(sstep)≥t(i),则记录的实现p的步骤被提前到步骤i之前,不变量/>表示动作持续期间航天器需要保持的状态。
更进一步地,所述步骤5.2包括:
在i处添加动作act时,分以下几种情况进行约束条件的设置:
1)、如果act的效果取决于v的值:添加约束条件t(i)≥t(Veff(v))+ε到S′.C中来促使act在变量v的动作之后执行,其中v∈V,S′.C表示在状态S′中的时间约束C集合;添加t(s)+ε≤t(i)和t(i)+ε≤t(e)到S′.C中;Veff(v)记录对v具有瞬时影响的最近步骤索引,t(Veff(v))表示对v具有瞬时影响的最近步骤索引的时间戳;
2)、如果act对v具有瞬时数字效应:添加t(i)≥t(Veff(v))+∈到S′.C中,对v进行顺序更新;添加t(j)+∈≤t(i)到S′.C中;添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S′.C中;∈表示常数,t(j)表示步骤j的时间戳,t(s)表示步骤s的时间戳;
3)、如果act开始一个动作,并且在v上有一个不变量条件:添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S′.C中;如果act对v没有更新效果,添加t(i)≥t(S.veff(v))+∈到S′.C中;t(e)表示步骤e的时间戳,t(S.Veff(v))表示表示状态S中步骤Veff(v)索引的时间戳;
4)、如果act开始一个动作,并对v产生连续影响:如果act对v没有瞬时更新效果,添加t(i)≥t(Veff(v))+∈到S′.C中,以顺序更新v;添加t(j)+∈≤t(i)到S′.C中;添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S′.C中;
5)、如果act结束从k开始的动作,并对v产生连续影响:添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S′.C中;添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S′.C中;
6)、如果act结束一个在v上具有不变量条件的动作:添加i到S′.VP(v)中;移除(k,i)从S′.VP(v)中,S′.VP(v)表示状态S′中的步骤索引集合VP(v)。S′和S均表示航天器的状态,区别是在规划中添加一个动作后,航天器的状态从S更新为S′。S′和S根据航天器的动作交替存在。
更进一步地,所述步骤六包括:
如果动作规划P中达到状态S的步骤[0,...,n-1]被赋值为值[t(0),...,t(n-1)],则状态S仅在时间上是一致的,表示每个相应步骤的执行时间,考虑时间约束C和资源约束,在构造了排序约束S′.C之后,要检查时间资源的一致性,任何不能满足时间约束的状态都立即从搜索中删除。
更进一步地,所述步骤六还包括:
在状态S中建立的时间约束C分别表示为:
lb≤t(b)-t(a)≤ub
其中,lb,ub∈R表示间隔时间上界和下界,并且0≤lb≤ub,t(b)-t(a)表示步骤a和b的间隔时间;
在时间限制的同时对数字资源的持续变化进行推理时,使用线性规划LP来捕获时间约束和数字约束,包括两者之间的交互。
更进一步地,所述步骤七包括:
时间松弛规划图启发式分为两个阶段:图扩展和解决方案提取,在图扩展阶段,目的是构建一个时间松弛规划图,确定哪些事实和动作是可以达到的,时间松弛规划图由交替事实层和动作层组成,交替事实层由可以在v上保持极限边界的命题组成,动作层包含在前一事实层中满足前提条件的动作,前提条件包括命题前提条件和数字前提条件,在命题前提条件的情况下,如果相关事实包含在前一层中,则命题前提条件成立,在数字前提条件的情况下,如果数字前提条件中出现变量的某些赋值与上界和下界一致,则这些数字前提条件就得到满足。“数字前提条件”表示动作的执行需要考虑航天器的资源数值,比如航天器变轨动作需要一定的燃料资源作为前提,航天器的燃料容量就是变轨动作的一个数字前提条件。“命题前提条件”表示动作执行不考虑系统的资源情况,比如航天器拍照需要相机保持在校准状态,而不需要考虑燃料的容量,相机的校准状态就是拍照的命题前提条件,不用考虑燃料的数字前提条件。在规划中,系统资源的变化是一个难以解决的问题,比如燃料的容量在变轨过程中是动态减少的,还有一些其他资源(如,算力资源)的动态变化,这些资源变量的变化在规划中难于精确表示。而在规划中对于需要资源的动作,在规划的每步采用动作对资源变量改变的极限上下界限,可以得出资源变化的范围,从而刻画资源在整个规划中的动态变化过程。
更进一步地,所述步骤七还包括:
图扩展过程中,在计算了动作层的第i+1层中所有变量的边界后,图扩展继续迭代,找到适用于动作层i+1的动作,从而找到第i+2层中的事实,以此类推,图扩展在以下两种情况之一中终止:事实层满足所有命题和数值目标;或者,增加更多的层不会导致更多的前提条件得到满足,当没有新的命题出现,变量上的边界的累积不会导致任何更多的数字前提条件被满足时;在第二种情况下,规划问题无法解决。
本发明的优点在于:本发明通过基于航天器轨道威胁自主规避的任务规划模型及航天器自主规避架构,设置两阶段规划策略,在规划的第一阶段继续进行观测任务,如果在规避行为决策中需要通过航天器的动作来规避轨道威胁,观测任务立即中断,并进行第二阶段的规划,第二阶段的规划用于规避轨道威胁,从而实现航天器自主及时处置空间威胁,并且对规划问题进行时间约束推理和包含资源变量的数字效应推理,使资源变量在动态变化的过程中满足持续时间动作的执行,检查每个状态下相互作用的时间约束和资源变量约束的一致性,将不能满足时间约束的状态删除,进一步提升航天器自主及时处置空间威胁的准确性和效率。
附图说明
图1为本发明实施例所公开的轨道威胁环境下的启发式航天器自主规避任务规划方法的流程示意图;
图2为本发明实施例所公开的轨道威胁环境下的启发式航天器自主规避任务规划方法的规划结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供轨道威胁环境下的启发式航天器自主规避任务规划方法,包括以下步骤:
S1:对航天器进行初始化配置,具体过程为:航天器存在复杂的操作约束和多个并发子系统,其在轨运行需要考虑结构、能力、设备状态和任务需求等因素。进行任务规划时,需要描述航天器的资源、分系统功能、构成和需要满足的约束条件。约束条件包括资源约束、因果约束和时间约束。本实施例综合考虑航天器规避轨道威胁的需求,具体选取的子系统如下表1所示。
表1子系统名称及涉及状态数量
子系统名称 | 状态变量数量 | 状态数量 |
相机 | 3 | 18 |
雷达 | 2 | 6 |
二维伺服转台 | 2 | 10 |
姿轨确定 | 1 | 5 |
姿态控制 | 1 | 3 |
轨道控制 | 1 | 5 |
推进系统 | 1 | 5 |
智能计算单元 | 1 | 26 |
S2:建立航天器轨道威胁自主规避的任务规划模型。
航天器轨道威胁自主规避的任务规划模型可以表示为八元组
Π=<F,I,G,V,A,Q,P,C>
其中,F是航天器状态成立的事实,表示真或假的布尔命题。是初始航天器状态,描述在规划开始时为真的事实。/>是航天器实现威胁规避所需维持的目标状态。V是航天器资源的集合,其中包含两种类型的资源变化。瞬时数值变化可以瞬间改变资源变量,而连续线性变化取决于动作的持续时间和梯度。A是一组可以改变航天器状态及其效果的动作。对于每个动作可能会消耗资源,表示为/>N是动作的名称,dur是动作的持续时间,durmin和durmax分别是act的最小和最大持续时间。pre为前提条件,包括开始条件/>结束条件pre⊥和不变条件/>具体来说,/>是必须在动作开始(结束)保持的条件,/>是必须始终保持在动作的开始和结束之间的条件。eff是效果,包含开始效果/>和结束效果eff⊥。/>表示航天器状态可以根据这些效果在动作开始(结束)时更新。Q记录事件队列中执行已开始但未结束的动作。P表示从初始状态到当前状态的动作顺序。C是规划中动作的一组时间约束。
S3:分析航天器轨道威胁的场景,基于自主规避的任务需求,设计航天器自主规避架构。
随着人类太空活动的增多,轨道空间日益拥挤,空间碎片数量持续增加,并且太空竞争不断加剧。地球观测卫星在轨执行对地观测任务,不可避免的会遭受到空间碎片的碰撞危害和敌意卫星的袭扰侦察等轨道威胁。如果不对这些威胁进行规避,将会对卫星造成无法挽回的损失。目前,应对轨道威胁的手段严重依赖于地面,存在运维指控人为因素多,威胁处置时效性差等问题,严重影响航天器在轨运行的安全性。为了解决此问题,本发明采用一种航天器自主规避的启发式任务规划方法,在没有人为干预的情况下,在轨自主的规划出航天器规避威胁的动作执行序列,从而实现轨道威胁规避,使航天器适应威胁数量持续增长、环境日益恶化的空间态势。
基于自主规避轨道威胁的任务需求,采用如图1所示的威胁规避流程,进行星上自主任务规划,从而摆脱地面人员参与,实现威胁规避。对地观测卫星在轨运行遇到潜在碰撞或袭扰威胁时,首先采用全域、红外、激光、微波四种探测手段,根据所处的顺光、逆光、地影等太空环境条件对传感器进行组合,实现对威胁目标的搜索捕获,并对威胁目标进行初始测距、测角。通过不同传感器设备间信息互补实现复杂空间环境下的威胁识别。其次通过对传感器信息的融合,获取威胁目标精确的速度、距离、方位角等信息。在此基础上,获取威胁目标的异动行为特征,目标轨道参数和碰撞概率。异动行为特征包括目标的速度、行为语义等。可见光相机可以实现近距离的精确成像,在获取目标的距离信息后判断是否需要可见光相机进行精确成像。从可见光相机采集的多层图像信息中提取威胁目标的形态特征,包括识别威胁目标是碎片或敌方航天器和目标携带的载荷。然后,结合处理后的目标信息及航天器自身姿轨参数进行融合推理,得到对目标的威胁类别与威胁等级的定量评价。
接下来,基于上述威胁目标信息和威胁等级推理后的信息,对航天器应采取的具体规避行为进行推理决策,其中规避行为包括轨道机动、姿态机动、正常运行三种;其次结合威胁目标行为信息,预估威胁目标未来的动作行为。然后,综合威胁行为预估和规避行为,求解出实现威胁规避的最优轨迹。
最后,通过星上执行机构执行预定的规避最优轨迹,使航天器进行变姿变轨动作以实现对威胁的规避。另外,实时的将航天器自身参数反馈给威胁等级推理和动作序列规划,以构建航天器轨道威胁自主规避的闭环系统。
S4:设置两阶段规划策略,在规划的第一阶段继续进行观测任务,在规避行为决策中,如果当前的轨道威胁对航天器不会造成伤害,则不需要规避,则整个规划中止,如果在规避行为决策中需要通过航天器的动作来规避轨道威胁,观测任务立即中断,并进行第二阶段的规划,第二阶段的规划用于规避轨道威胁。具体过程如下:
为了权衡威胁规避和观测任务之间的冲突,本发明提出了两阶段策略的规划方案。航天器轨道威胁是一项非常重要但偶尔发生的规避任务。在没有受到轨道威胁时,航天器主要执行对地观测任务。在威胁规避过程中,为了尽量减少对观测任务执行的影响,提出了两阶段策略规划。
如图1所示,将整个威胁规避任务分为两个阶段,以规避行为决策为中点,向前为第一阶段,向后为第二阶段。在规划的第一阶段,航天器的姿态和轨道状态不会改变,这不会影响观测任务的执行。因此,在规划的第一阶段继续进行观测任务。在规避行为决策中,可以获得实现威胁规避的后续行动。如果当前的轨道威胁对航天器不会造成伤害,则不需要规避,则整个规划就中止了。第二阶段的规划也不会实施。如果在规避行为决策中需要通过航天器的某些动作来规避轨道威胁,由于第二阶段的规避动作会改变航天器的姿态和轨道,从而影响观测任务的执行。因此,观测任务需要立即中断,并进行第二阶段的规划。在两阶段规划策略中,第一阶段规划和观测任务并行执行,而观测任务的中断则根据是否需要第二阶段规划来判断。从而,该策略可以有效降低威胁规避对观测任务的影响,同时可以提高任务执行的效率。
需要指出的是,本发明研究的是轨道威胁自主规避的任务规划。考虑的是在没有地面参与的情况下,对航天器软硬件动作进行协调以实现威胁规避。而现有技术对每个动作的具体实现方法没有研究。在航天器实际在轨运行中,只需在嵌入式微处理器中装载本发明提出的规划算法和每个动作具体方法,在自主规避规划结果的指导下,动作执行顺序遵循彼此之间的时间约束关系。然后,可以实现所提出的两阶段规划策略,并且可以自主规避航天器的轨道威胁。
S5:对规划问题进行时间约束推理和包含资源变量的数字效应推理,使资源变量在动态变化的过程中满足持续时间动作的执行。具体过程如下:
步骤5.1:将规划模型中的每个持续时间动作分解为两个非时间瞬时动作,如下形式<pre,eff>,其中/>表示开始瞬时动作,act⊥=<pre⊥,eff⊥>表示结束瞬时动作。规划中的每个状态表示为S=<F,V,Q,P,C>。应用动作act时,只有当act的效果与Q中任何动作的不变量不冲突时,才能应用act,并且会根据其效果更新F和V。为了考虑问题的时间结构,在将每个动作添加到规划时,都会更新C。
在规划扩展状态时,为了将步骤信息存储在状态中。每个规划步骤都有一个唯一索引,每个状态下的每个事实都用以下信息进行了表示:
F+(p)(F-(p))分别给出了最近添加(删除)事实p的步骤i索引。
FP(p)是一组对<i,d>,具有前提条件p的步骤,i是步骤索引,d∈{0,ε},ε表示一个小的时间间隔。如果d=0,记录步骤i是在一个区间的末尾,在此期间p需要保持。在这种情况下,i是一个动作的结束步骤,其中p是一个不变量条件。如果d=ε,记录步骤i是p需要保持的一个间隔开始,对应于与步骤i相关的开始或结束条件。
接下来,描述在应用开始动作或结束动作act时更新状态的过程。在规划的步骤i中应用启动操作/>时,将向规划添加以下约束:
对于每个添加时间约束t(sstep)≥t(S.F+(p))+ε,其中t(sstep)表示添加/>步骤索引sstep的时间戳。实现p的步骤被提前到步骤i之前。对于/>的每个负效应p,将p从状态中移除,添加约束t(sstep)≥t(i)+ε,使删除步骤i发生在任何需要p的动作之后。对于/>的每个正效应p,将p添加到状态。添加约束t(sstep)≥t(S.F-(p)+ε,并且步骤i被记录为p的实现步骤。对于每个不变量/>如果/>没有实现p,添加约束t(sstep)≥t(i),则记录的实现p的步骤被提前到步骤i之前。应用结束动作是类似的,但是不需要考虑不变量条件。
其中,需要说明的是,p∈F是航天器状态的事实,表示航天器的状态,例如:航天器处在维持姿态,拍照等状态的事实。p是一个符号,会随着航天器的状态变化而代表的含义发生改变。航天器的状态是通过规划中的动作进行改变的。每个动作有持续时间,为了处理动作的持续时间,将动作分解为两个非时间瞬时动作,表示开始瞬时动作,act⊥=<pre⊥,eff⊥>表示结束瞬时动作。动作添加到规划中需要满足相应的航天器状态条件,而且会对航天器状态产生改变。/>代表添加开始动作/>航天器需要满足的状态事实p。负效应p表示添加完动作后删除航天器的一些状态,正效应p表示添加完动作后增加航天器的一些状态,不变量/>表示动作持续期间航天器需要保持的状态。例如,航天器拍照前需要进行校准,校准状态就是拍照动作的前提条件/>拍照动作进行后会删除航天器的校准状态,这是一个负效应,增加航天器的拍照状态,这又是一个正效应。而在拍照的过程中,航天器姿态不能发生变化,而姿态保持状态就是拍照动作的不变条件/>
步骤5.2:对于资源变量V,状态中有记录其下限值和上限值的向量Vmax和Vmin。存在连续数值变化的情况下,资源变量的值取决于时间。对于每个v∈V:
Veff(v)记录对v具有瞬时影响的最近步骤索引。
Vcts(v)记录了一组开始和结束步骤索引对,其中(i,j)∈Vcts(v)表示在i开始并将在j结束的动作(步骤j仍在事件队列中)对v具有连续数字影响。
VP(v)记录一组步骤索引,其中i∈VP(v)。当步骤i取决于v的值时,有如下三种情况:步骤i有一个涉及v的前提条件;步骤i的结果取决于v的先前值;步骤i是动作的开始,动作的持续时间取决于v。
VI(v)记录索引对,使得(i,j)∈VI(v)当从步骤i开始并将在步骤j结束的动作具有依赖于v的不变量条件时。
然后,对步骤5.1扩展以处理资源变量的变化效应。在i处添加动作act时:
1、如果act的效果取决于v的值:添加约束条件t(i)≥t(Veff(v))+ε到S′.C中来促使act在最近影响变量v的动作之后执行,其中S′.C表示在状态S′中的时间约束C集合;添加t(s)+ε≤t(i)和t(i)+ε≤t(e)到S′.C中,将依赖效应放置在当前活动的过程效应内部;添加i到集合S′.VP(v)中。对于t(),括号内的符号代表相应步骤的索引,t()代表相应步骤的时间戳。
2、如果act对v具有瞬时数字效应:添加t(i)≥t(Veff(v))+∈到S′.C中,对v进行顺序更新;添加t(j)+∈≤t(i)到S′.C中,避免act的效果和依赖它的动作之间的相互冲突;/>添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S′.C中,将步骤置于活动连续效应的范围内;S′.Veff(v)←i;根据效应更新S′.Vmin(v),S′.Vmax(v)。
3、如果act开始一个动作(在j结束),并且在v上有一个不变量条件:添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S′.C中,将步骤置于活动连续效应的范围内;如果act对v没有更新效果,添加t(i)≥t(S.Veff(v))+∈到S′.C中,将不变量推迟到最近对v产生效应的步骤之后;添加(i,j)到S′.VI(v)中。
4、如果act开始一个动作(在j结束),并对v产生连续影响:如果act对v没有瞬时更新效果,添加t(i)≥t(Veff(v))+∈到S′.C中,以顺序更新v;添加t(j)+∈≤t(i)到S′.C中;/>添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S′.C中,将步骤置于活动不变量条件的范围内;添加(i,j)到S′.Vcts;S′.Veff(v)←i。
5、如果act结束从k开始的动作,并对v产生连续影响:添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S′.C中;移除(k,i)从S′.Vcts(v)中;/>添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S′.C中,将动作置于主动连续效果的范围内;S′.Veff(v)←k。
6、如果act结束一个在v上具有不变量条件的动作:添加i到S′.VP(v)中;移除(k,i)从S′.VP(v)中。
这些改变变量v值的排序约束对应于将步骤添加到规划中的顺序。这样可以在任何时候,都可以通过对基于v的步骤进行排序来确定v的值。
S6:检查每个状态下相互作用的时间约束和资源变量约束的一致性,将不能满足时间约束的状态删除。具体过程如下:
动作一致性检查。如果规划P中达到状态S的步骤[0,...,n-1]可以被赋值为值[t(0),...,t(n-1)],则状态S仅在时间上是一致的,表示每个相应步骤的执行时间。考虑时间约束C和资源约束,在构造了排序约束S′.C之后,有必要检查时间资源的一致性。任何不能满足时间约束的状态都会立即从搜索中删除,因为任何动作序列的扩展都不能导致有效的规划方案解。
在状态S中建立的时间约束C分别表示为:
lb≤t(b)-t(a)≤ub
其中,lb,ub∈R表示间隔时间上界和下界,并且0≤lb≤ub,t(b)-t(a)表示步骤a和b的间隔时间。
在时间限制的同时对数字资源的持续变化进行推理时,使用线性规划LP来捕获时间约束和数字约束,包括两者之间的交互。现在将描述LP是如何构建的。
对于到达状态S的规划P=[act0,...,actn-1],其中actn-1是最近添加到规划中的动作。每个瞬时动作act的时间戳ti都相应一个LP变量stepi,每个在未来步骤i结束的瞬时动作act的时间戳ei都有相应的LP变量estepi。
由于资源变量的数字变化效果既可以是离散的,也可以是连续的,因此在规划中的每一步都会创建两个额外的变量向量。其中第一个Vi表示紧接在acti被执行之前的状态变量V的值(在步骤0的情况下,Vi等于初始状态I中的V的值)。第二个是Vi′,包含在执行acti之后立即执行的V值。V0中的变量被枚举为v0,...,vm-1,类似地,V′0中的变量显示为v′0,...,v′m-1,vi是V中的第i个值。为了表示动作引起的离散变化,需要在每层使用两个向量:瞬时动作可能会导致变量的值在执行后立即不同。为了在LP中表示这一点,如果步骤i处的动作对变量v没有影响,则v′i=vi。否则,对于离散效应,引入一个约束来定义v′i的值:
v′i=vi+W·V+k·(ce(i)-cs(i))+c
其中,W是常数向量,c是任意常数,W·V+c表示动作acti执行前vi需要满足的前提条件。函数cs(i)和ce(i)表示步骤i处动作的相应开始和结束的时间戳变量。如果步骤i是动作的结束,则ce(i)=stepi,cs(i)是在步骤i结束的动作开始步骤变量。类似地,如果步骤i启动一个动作,则cs(i)=stepi,并且ce(i)要么是estepi如果该动作尚未完成,要么是在步骤i开始的结束动作步骤变量。从而,用ce(i)-cs(i)表示动作的效果与其持续时间之间的关系。
连续线性变化发生在规划步骤之间,而不是在执行步骤本身的瞬间。为了记录连续效应,在构建LP时,从规划开始,记录作用于每个变量v∈V的总连续变化梯度,其中δv表示acti-1之后和动作acti执行之前的有效梯度。变量v上的梯度只能通过启动一个动作(启动对v的现有连续效应k∈R进行调整)或结束一个动作来改变(结束由其开始所引发的效果)。δ常数值可以计算如下:
对于所有变量,如果δv0=0,在规划开始之前,任何变量都没有激活的连续数字变化;如果acti对v没有连续的数字影响,那么δvi+1=δvi;如果acti启动一个连续的数字效应,那么δvi+1=δvi+k;如果acti终止了一个连续的数字效应,/>那么δvi+1=δvi-k。
基于这些梯度值,在构建LP时,为每个v∈V记录如下值:
vval:LP变量包含对v产生影响的最后一个步骤m之后v′i的值
vt:对v有影响的最后一步m的时间戳变量;
当访问步骤i时,对于每个变量v∈V,可以将i之前的vi确定为:若是连续数字效应:vi=vval+δv(t(i)-vt)。若是瞬时数字效应:vi=vval+wi,记录步骤i将v的值增加w。也就是说,使用最后一步之后修改v的值以及该步骤之后的时间来计算v。
在执行每个步骤i时,与每个变量v∈V相关联的值更新如下:
如果步骤i对v具有瞬时影响,则通过创建将v′(i)与v(i)相关的约束,并将vval设置为v′(i),将vt设置为t(i)。
如果步骤i是一个具有连续效应变化动作的开始,该动作以每时间单位c的速率改变v,则c被添加到δv和vval←v′(i),vt←t(i)。
如果步骤i是以速率c对v产生连续影响动作的结束,则从δv中减去c,和vval←v′(i),vt←t(i)。
创建了变量来表示资源值,并引入了约束来捕捉动作对资源的影响,现在考虑每个瞬时动作前提条件产生的约束,动作开始和结束之间必须遵守的不变量,以及对规划中每个动作持续时间的任何约束。对于形式为<v,{≤,=,≥},W·V+c>的每个数字前提条件,为了应用步骤i必须成立,向LP添加一个约束:
v{≤,=,≥}W·V+c
对于从stepi开始到stepj结束的动作act,act的不变量以如下形式添加到LP,对于变量[V′i,V′j-1]和[Vi+1,Vj]的每个向量添加一次约束。在动作act的结束(从i开始)尚未出现在规划中的情况下,从v′i开始,act的不变量被施加在变量的所有向量上:由于act在未来必须结束,因此在当前规划中的任何步骤中,在其开始的点之后,其不变量都不得被违反。最后,添加持续时间限制。对于从步骤i开始的动作act,将与act结束的时间相对应的变量表示为ce(i),其中,如果动作的结束已在步骤j插入到规划中,则ce(i)=stepj,否则,ce(i)=estepi。那么,对于act的每个持续时间约束,添加了一个约束:
ce(i)-stepi{≥,=,≤}W·Vi+c
这个过程构建了一个LP,捕获了规划中所有数字和时间约束,以及它们之间的交互。LP的解包含变量[step0,...,stepn]值,即为规划中动作分配的时间戳。为了防止LP分配这些变量任意大(但有效)的值,LP目标函数是最小化stepn,其中actn是迄今为止规划中的最后一步。如果为规划P建立的到达状态S的LP不能求解,可以从搜索空间中修剪状态S,而不需要进一步考虑,因为从S到合法目标状态没有路径。通过这种方式,以便确定规划有效性。
当执行状态空间搜索时,状态S是沿着某个规划轨迹,出现在一个动作步骤之后和另一个动作之前。如果变量v正在经历连续数字变化(或受到持续时间相关的主动变化),则一种状态下的估值取决于迄今为止应用了哪些瞬时动作,应用这些瞬时动作的时间以及自上次应用动作以来经过了多少时间。
由于时间和连续变化变量值的灵活性,使用两个向量Vmax和Vmin分别表示S中每个数值变量的最大值和最小值。这些变量边界的计算可以使用LP求解来实现。对于由规划P达到的状态S(其中actn是P中的最后一步),将另一个变量向量添加到LP,表示为Vnow,以及另一个时间戳变量stepnow。Vnow中的变量表示沿着actn之后状态轨迹在某个点(在时间stepnow)的每个状态变量值。now的数字变量和时间戳受到约束,是附加到规划中的一个附加动作:
now必须在前一个步骤之后,例如,stepnow-stepn≥ε
now必须在已经开始但尚未完成的任何动作结束之前或与其一致,例如,对于每个estep(i),estep(i)≥stepnow。
对于每个变量vnow∈Vnow,基于连续数字变化来计算其值:
vnow=vval+δvnow(stepnow-vt)
最后,对于每个已经开始但尚未完成的动作的不变条件<v,{≤,=,≥},W·V+c>:
vnow{≤,=,≥}W·Vnow+c
然后,可以使用LP来找到变量的上界和下界。对于每个变量vnow∈Vnow,对LP解算器进行两次调用:一次是将目标设置为最大化vnow,另一次是最小化vnow。然后将其作为S中的vmax和vmin的值。在最简单的情况下,当变量v不受连续或持续时间相关变化的影响时,v的值与时间无关,因此vmax=vmin,其值可以通过连续应用P中动作效果来确定。
由于对每个变量的值都有上限和下限,而不是固定的赋值。对于数值前提W·X≥c,通过使用v∈X上的上界来计算W·X的乐观值,如果它在W中的对应权重是正的,否则,使用它的下界。然后,如果该结果值大于或等于c,则认为满足前提条件。(对于数值条件W·X≤c,可以通过将不等式的两边乘以-1和形式W·X=c的约束被等价条件对W·X≥c,-W.X≥-c所代替。)
S7:采用时间松弛规划图启发式指导规划通过搜索空间到达目标。
时间松弛规划图(TRPG)启发式,上述描述的搜索算法都使用了启发式方法来引导规划有效地通过搜索空间到达目标。现在将转向面对时间相关变化启发式的构建。TRPG的目的是支持启发式计算,分为两个阶段:图扩展和解决方案提取。在图扩展阶段,目的是构建一个RPG,确定哪些事实和动作是可以达到的。TRPG由交替事实层和动作层组成,交替事实层由可以在v上保持极限边界的命题组成,动作层包含在前一事实层中满足前提条件的动作。在命题前提条件的情况下,如果相关事实包含在前一层中,则前提条件成立。在数字前提条件的情况下,如果前提条件中出现变量的某些赋值与上界和下界一致,导致其得到满足,则这些前提条件就得到满足。
为了处理动作的连续效应和瞬时数字效应,将作用于每个相关变量的连续线性效应附加到瞬时动作效应act,用g(act)表示所有这些连续效应的集合。对于连续效应cont(act),由 发起。也就是说,act开始的梯度效应包括act的所有连续效应。一旦有了与每个瞬时动作act相关的线性连续效果集合g(act),就可以调整TRPG的结构。首先,为每个变量v确定一个相关的最大变化率δvmax(t),紧跟在层al(t)之后。将其设置为al(t)中任何瞬时动作的所有正变化率(影响v)的总和:
此定义依赖于在任何时间只能执行任何动作一次的限制。如果可以同时执行的动作次数有一个明确有限界p(a),那么将其纳入δvmax(t)的计算中,如下所示:
在al(t)层之后,有了每个变量变化率的上限值,通过将上限值应用于变量在时间t的最大值,来推导出每个变量在任何时间t′>t的最大数值。然后,决定在TRPG的构建中提前t′多远。分为如下几种可能,时间被限制为提前ε或者直到下一个动作结束点,这取决于在最近的动作层之后是否有任何新的事实可用。时间可以提前到最早的值,在该值上,主动连续变化对变量的累积影响可以满足先前未满足的前提条件。
对于常数W和C的向量,每个数值前提条件可以写成对数值变量v的向量的约束,形式为W·V≥c。定义函数ub如下:
W·V在t′的上界为:ub(W,Vmin(t′),Vmax(t′))。事实层i中动作满足数字前提条件W·V≥c的最早点是ub(W,Vmin(t′),Vmax(t′))≥c的t′最小值。
在TRPG中,每一层都与它所能代表的最早时间相关联。事实p可用的最早时间是ft(p)=max{tmin(F+(P)),tmin(F-(P))+ε},因为达成时间要么是在最后的达成者应用动作时,要么是在最后的删除者之后再次达成。因此,直到在ft(p)处出现事实层,p才被添加到TRPG。类似地,对于在变量vars上指定的每个数字前提条件,将其被认为满足的层延迟到:
/>
此外,任何添加p的动作都被调度到影响p的现有动作之后,在ft(p)之后。并且任何删除p的动作也必须在需要p的动作之后。因此,删除p的动作事实层fd(p)会延迟到:
其中,tmin(i)是步骤i被添加到规划中时,使用LP计算出的可执行最早时间戳。
通过类似的推理,数字效应ne,更新变量v,必须安排在影响ne,vars中出现的任何变量的最后动作之后,也必须安排在需要v的最后一点之后:
根据TRPG的结构,事实层0包含S中所有为真的事实。因此,动作层0由其前提条件在事实层0中得到满足的所有动作组成。然后,事实层1被设置为采取事实层0并在动作层0中应用每个动作的乐观结果。更正式地说,应用动作层i中的动作,即动作层al(i)导致事实层i+1,其中:
fl(i+1)=fl(i)∪{eff+(act)|act∈al(i)}
考虑到数字效应,在动作层i中,所有动作对变量v的乐观增加和减少效应集分别为:
在这两个表达式中,v的最小界和最大界使每个表达式在适当的方向上尽可能极端。类似地,在所有可用的赋值效果之后,v的乐观上界和下界为:
然后,新的界限变为:
Vmax(i+1)[j]=max{act↑(i,V[j]),Vmax(i)[j]+∑inc(i,V[j])}
Vmin(i+1)[j]=min{act↓(i,V[j]),Vmin(i)[d]+∑dec(i,V[j])}
也就是说,为了在下一层找到V[j]的上(下)界,对于每一层,可以选择应用所有增加(减少)效应的总和。在计算了第i+1层中所有变量的边界后,图扩展继续迭代,找到适用于动作层i+1的动作,从而找到第i+2层中的事实,以此类推。图扩展在以下两种情况之一中终止:事实层满足所有命题和数值目标;或者,增加更多的层永远不会导致更多的前提条件得到满足,当没有新的命题出现,变量上的较大或较小边界的累积不会导致任何更多的数字前提条件被满足时。在第二种情况下,规划问题无法解决,因此,在原始问题中,从S开始的任何规划都无法达到G。
假设图扩展在达到所有目标后终止,第二阶段是从规划图中提取解决方案。这是一个递归过程,从目标回归到最初的事实层。每个事实层都增加了一组要在该层实现的目标(事实或数字前提条件)。解决方案提取会重复选择规划图中最新的未完成目标,并选择实现该目标的方法。对于命题目标,选择一个单独的动作(带有添加目标的效果),并插入其前提条件作为要实现的目标。为了在第i层满足数值目标W·V≥c,选择对v中的变量(具有非零系数)有影响的动作,直到W·V,k的净增加足以允许在第i-1层满足残差前提W·V≤c-k。在这一点上,这个剩余的前提条件被添加为在第i-1层要实现的目标,并且为支持这个前提条件而选择的所有动作前提条件都被添加为要在前几层实现的目标。
当所有未完成的目标实际上都要在第0层实现时,解决方案提取终止,因为这些目标在被评估的状态下是真实的,不需要支持的动作。在解决方案提取中选择的动作形成了从S到目标的规划。这个规划的长度(动作的数量)形成启发式估计值h(S)。
通过上述步骤,输出最终的规划结果,完成航天器在轨道威胁环境下的启发式自主规避任务规划。图2是航天器在应对轨道威胁的规划结果图,整个规划结果得出了航天器子系统间和软件模块的动作序列,从而协调航天器在应对威胁时的一系列动作。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.轨道威胁环境下的启发式航天器自主规避任务规划方法,其特征在于,包括:
步骤一:对航天器进行初始化配置;
步骤二:建立航天器轨道威胁自主规避的任务规划模型;
步骤三:分析航天器轨道威胁的场景,基于自主规避的任务需求,设计航天器自主规避架构;
步骤四:设置两阶段规划策略,在规划的第一阶段继续进行观测任务,在规避行为决策中,如果当前的轨道威胁对航天器不会造成伤害,则不需要规避,则整个规划中止,如果在规避行为决策中需要通过航天器的动作来规避轨道威胁,观测任务立即中断,并进行第二阶段的规划,第二阶段的规划用于规避轨道威胁;
步骤五:对规划问题进行时间约束推理和包含资源变量的数字效应推理,使资源变量在动态变化的过程中满足持续时间动作的执行;
步骤六:检查每个状态下相互作用的时间约束和资源变量约束的一致性,将不能满足时间约束的状态删除;
步骤七:采用时间松弛规划图启发式指导规划通过搜索空间到达目标。
2.根据权利要求1所述的轨道威胁环境下的启发式航天器自主规避任务规划方法,其特征在于,所述步骤二包括:
航天器轨道威胁自主规避的任务规划模型表示为八元组
∏=<F,I,G,V,A,Q,P,C>
其中,F是航天器状态成立的事实;是初始航天器状态;/>是航天器实现威胁规避所需维持的目标状态;V是航天器资源的集合;A是一组能够改变航天器状态及其效果的动作,每个动作表示为/>N是动作的名称,dur是动作的持续时间,durmin和durmax分别是act的最小和最大持续时间,pre为前提条件,包括开始条件/>结束条件pre⊥和不变条件/>eff是效果,包含开始效果/>和结束效果eff⊥;Q是记录事件队列中执行已开始但未结束的动作;P表示从初始状态到当前状态的动作顺序;C是规划中动作的一组时间约束。
3.根据权利要求2所述的轨道威胁环境下的启发式航天器自主规避任务规划方法,其特征在于,所述步骤三中设计航天器自主规避架构包括可见光相机、全域相机、红外相机、微波雷达、激光雷达、多传感器信息融合单元、威胁目标行为信息计算单元、威胁等级推理单元、规避行为决策单元以及动作序列规划单元,采用全域、红外、激光、微波四种探测手段,根据所处的太空环境条件对传感器进行组合,对威胁目标的搜索捕获,并对威胁目标进行初始测距、测角,通过不同传感器设备间信息互补实现威胁识别,其次通过对传感器信息的融合,获取威胁目标的速度、距离、方位角信息,从而获取威胁目标的异动行为特征,目标轨道参数和碰撞概率;可见光相机实现近距离的成像获取形态特征;结合处理后的目标信息及航天器自身姿轨参数进行融合推理,得到对目标的威胁类别与威胁等级的定量评价,对航天器应采取的具体规避行为进行推理决策,预估威胁目标未来的动作行为,求解出实现威胁规避的最优轨迹;实时的将航天器自身参数反馈给威胁等级推理单元和动作序列规划单元。
4.根据权利要求3所述的轨道威胁环境下的启发式航天器自主规避任务规划方法,其特征在于,所述步骤五包括:
步骤5.1:将任务规划模型中每个持续时间动作act分解为两个非时间瞬时动作,形式为<pre,eff>,其中,表示开始瞬时动作,act⊥=<pre⊥,eff⊥>表示结束瞬时动作,规划中的每个状态表示为S=<F,V,Q,P,C>,应用动作act时,只有当act的效果与Q中任何动作的不变量不冲突时,才能应用act,并且根据其效果更新F和V,在将每个动作添加到规划时,都更新C;
步骤5.2:对于资源变量V,状态中有记录其下限值和上限值的向量Vmax和Vmin,存在连续数值变化的情况下,资源变量的值取决于时间。
5.根据权利要求4所述的轨道威胁环境下的启发式航天器自主规避任务规划方法,其特征在于,所述步骤5.1还包括:
每个规划步骤都有一个唯一索引,每个状态下的每个事实都用以下信息进行表示:
F+(p)(F-(p))分别给出了最近添加、删除事实p的步骤i索引;
FP(p)是一组对<i,d>具有前提条件p的步骤,i是步骤索引,d∈{0,ε},ε表示时间间隔,如果d=0,记录步骤i是在一个区间的末尾,在此期间p需要保持,在这种情况下,i是一个动作的结束步骤,其中p是一个不变量条件;如果d=ε,记录步骤i是p需要保持的一个间隔开始,对应于与步骤i相关的开始或结束条件;
在规划的步骤i中应用启动操作时,将向规划添加以下约束:
对于每个添加时间约束t(sstep)≥t(S.F+(p))+ε,其中,/>表示添加开始动作actT,航天器需要满足的状态事实p,S.F+(p)代表航天器状态S中最近添加事实p的步骤i索引,t(S.F+(p))代表步骤索引S.F+(p)的时间戳,t(sstep)表示添加/>步骤索引sstep的时间戳,实现p的步骤被提前到步骤i之前;对于/>的每个负效应p,将p从状态中移除,添加约束t(sstep)≥t(i)+ε,使删除步骤i发生在任何需要p的动作之后,其中t(i)表示步骤i索引的时间戳,负效应p表示添加完动作后删除航天器的一些状态;对于/>的每个正效应p,将p添加到状态,添加约束t(sstep)≥t(S.F-(p)+ε,并且步骤i被记录为p的实现步骤,其中t(S.F-(p)表示步骤索引S.F-(p)的时间戳,S.F-(p)是状态S中最近删除事实p的步骤索引,正效应p表示添加完动作后增加航天器的一些状态;对于每个不变量如果actT没有实现p,添加约束t(sstep)≥t(i),则记录的实现p的步骤被提前到步骤i之前,不变量/>表示动作持续期间航天器需要保持的状态。
6.根据权利要求5所述的轨道威胁环境下的启发式航天器自主规避任务规划方法,其特征在于,所述步骤5.2包括:
在i处添加动作act时,分以下几种情况进行约束条件的设置:
1)、如果act的效果取决于v的值:添加约束条件t(i)≥t(Veff(v))+ε到S'.C中来促使act在变量v的动作之后执行,其中v∈V,S'.C表示在状态S'中的时间约束C集合;添加t(s)+ε≤t(i)和t(i)+ε≤t(e)到S'.C中;Veff(v)记录对v具有瞬时影响的最近步骤索引,t(Veff(v))表示对v具有瞬时影响的最近步骤索引的时间戳;
2)、如果act对v具有瞬时数字效应:添加t(i)≥t(Veff(v))+∈到S'.C中,对v进行顺序更新;添加t(j)+∈≤t(i)到S'.C中;添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S'.C中∈表示常数,t(j)表示步骤j的时间戳,t(s)表示步骤s的时间戳;
3)、如果act开始一个动作,并且在v上有一个不变量条件:添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S'.C中;如果act对v没有更新效果,添加t(i)≥t(S.Veff(v))+∈到S'.C中;t(e)表示步骤e的时间戳,t(S.Veff(v))表示表示状态S中步骤Veff(v)索引的时间戳;
4)、如果act开始一个动作,并对v产生连续影响:如果act对v没有瞬时更新效果,添加t(i)≥t(Veff(v))+∈到S'.C中,以顺序更新v;添加t(j)+∈≤t(i)到S'.C中;添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S'.C中;
5)、如果act结束从k开始的动作,并对v产生连续影响:添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S'.C中;添加t(s)+∈≤t(i)和t(i)+∈≤t(e)到S'.C中;
6)、如果act结束一个在v上具有不变量条件的动作:添加i到S′.VP(v)中;移除(k,i)从S′.VP(v)中,S′.VP(v)表示状态S′中的步骤索引集合VP(v)。
7.根据权利要求6所述的轨道威胁环境下的启发式航天器自主规避任务规划方法,其特征在于,所述步骤六包括:
如果动作规划P中达到状态S的步骤[0,...,n-1]被赋值为值[t(0),...,t(n-1)],则状态S仅在时间上是一致的,表示每个相应步骤的执行时间,考虑时间约束C和资源约束,在构造了排序约束S'.C之后,要检查时间资源的一致性,任何不能满足时间约束的状态都立即从搜索中删除。
8.根据权利要求7所述的轨道威胁环境下的启发式航天器自主规避任务规划方法,其特征在于,所述步骤六还包括:
在状态S中建立的时间约束C分别表示为:
lb≤t(b)-t(a)≤ub
其中,lb,ub∈R表示间隔时间上界和下界,并且0≤lb≤ub,t(b)-t(a)表示步骤a和b的间隔时间;
在时间限制的同时对数字资源的持续变化进行推理时,使用线性规划LP来捕获时间约束和数字约束,包括两者之间的交互。
9.根据权利要求7所述的轨道威胁环境下的启发式航天器自主规避任务规划方法,其特征在于,所述步骤七包括:
时间松弛规划图启发式分为两个阶段:图扩展和解决方案提取,在图扩展阶段,目的是构建一个时间松弛规划图,确定哪些事实和动作是可以达到的,时间松弛规划图由交替事实层和动作层组成,交替事实层由可以在v上保持极限边界的命题组成,动作层包含在前一事实层中满足前提条件的动作,前提条件包括命题前提条件和数字前提条件,在命题前提条件的情况下,如果相关事实包含在前一层中,则命题前提条件成立,在数字前提条件的情况下,如果数字前提条件中出现变量的某些赋值与上界和下界一致,则这些数字前提条件就得到满足。
10.根据权利要求9所述的轨道威胁环境下的启发式航天器自主规避任务规划方法,其特征在于,所述步骤七还包括:
图扩展过程中,在计算了动作层的第i+1层中所有变量的边界后,图扩展继续迭代,找到适用于动作层i+1的动作,从而找到第i+2层中的事实,以此类推,图扩展在以下两种情况之一中终止:事实层满足所有命题和数值目标;或者,增加更多的层不会导致更多的前提条件得到满足,当没有新的命题出现,变量上的边界的累积不会导致任何更多的数字前提条件被满足时;在第二种情况下,规划问题无法解决。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311049876.0A CN117170392A (zh) | 2023-08-18 | 2023-08-18 | 轨道威胁环境下的启发式航天器自主规避任务规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311049876.0A CN117170392A (zh) | 2023-08-18 | 2023-08-18 | 轨道威胁环境下的启发式航天器自主规避任务规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117170392A true CN117170392A (zh) | 2023-12-05 |
Family
ID=88942267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311049876.0A Pending CN117170392A (zh) | 2023-08-18 | 2023-08-18 | 轨道威胁环境下的启发式航天器自主规避任务规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117170392A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117742361A (zh) * | 2023-12-07 | 2024-03-22 | 哈尔滨工业大学 | 基于smt的航天器多种轨道威胁自主规避机载任务规划方法 |
-
2023
- 2023-08-18 CN CN202311049876.0A patent/CN117170392A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117742361A (zh) * | 2023-12-07 | 2024-03-22 | 哈尔滨工业大学 | 基于smt的航天器多种轨道威胁自主规避机载任务规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Peng et al. | Agile earth observation satellite scheduling: An orienteering problem with time-dependent profits and travel times | |
CN110412869B (zh) | 一种多星协同的空间动态目标实时跟踪方法 | |
CN117170392A (zh) | 轨道威胁环境下的启发式航天器自主规避任务规划方法 | |
JP2017026190A (ja) | 航空機管理装置、航空機、及び航空機の軌道算出方法 | |
CN109034670B (zh) | 一种卫星在轨活动规划方法及系统 | |
CN111950873A (zh) | 基于深度强化学习的卫星实时引导任务规划方法及系统 | |
CN110717600B (zh) | 样本池构建方法和装置、以及算法训练方法和装置 | |
CN115081936B (zh) | 面向应急条件下多遥感卫星观测任务调度的方法和装置 | |
Darrah et al. | Using genetic algorithms for tasking teams of raven UAVs | |
CN111651905A (zh) | 考虑时间依赖转换时间的敏捷卫星调度方法 | |
CN108287472B (zh) | 采用滚动时域框架的舰队防空决策与自动化调度系统与方法 | |
Ilachinski | Artificial intelligence and autonomy: Opportunities and challenges | |
Raouf et al. | Launch vehicle multi-objective reliability-redundancy optimization using a hybrid genetic algorithm-particle swarm optimization | |
Levitin et al. | Optimal aborting strategy for three-phase missions performed by multiple units | |
Kong et al. | Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat | |
Levitin et al. | Optimal task aborting policy and component activation delay in consecutive multi-attempt missions | |
CN108255780B (zh) | 一种基于优化目标的舰队防空资源控制参量的求解计算方法 | |
Liu et al. | Time-dependent autonomous task planning of agile imaging satellites | |
CN116088586B (zh) | 一种无人机作战过程中的临机任务规划的方法 | |
Undurti et al. | A decentralized approach to multi-agent planning in the presence of constraints and uncertainty | |
Liu et al. | A dynamic mission abort policy for transportation systems with stochastic dependence by deep reinforcement learning | |
CN115320890A (zh) | 一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法 | |
Kargin et al. | Planning and Control Method Based on Fuzzy Logic for Intelligent Machine. | |
Fuchs et al. | Autonomous robust design optimisation with potential clouds | |
Wu et al. | Decision Modeling and Simulation of Fighter Air-to-ground Combat Based on Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |