CN116090688B - 基于改进指针网络的移动目标遍历访问序列规划方法 - Google Patents

基于改进指针网络的移动目标遍历访问序列规划方法 Download PDF

Info

Publication number
CN116090688B
CN116090688B CN202310371070.7A CN202310371070A CN116090688B CN 116090688 B CN116090688 B CN 116090688B CN 202310371070 A CN202310371070 A CN 202310371070A CN 116090688 B CN116090688 B CN 116090688B
Authority
CN
China
Prior art keywords
target
network
hidden layer
targets
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310371070.7A
Other languages
English (en)
Other versions
CN116090688A (zh
Inventor
罗亚中
张嘉城
朱阅訸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202310371070.7A priority Critical patent/CN116090688B/zh
Publication of CN116090688A publication Critical patent/CN116090688A/zh
Application granted granted Critical
Publication of CN116090688B publication Critical patent/CN116090688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种基于改进指针网络的移动目标遍历访问序列规划方法,该方法包括:提取移动目标特征属性;构建基于改进指针网络的智能体模型;模型包括决策器网络和评价器网络,决策器网络包括目标排序器和任务时间分割器;评价器网络包括编码器和期望奖励估计解码器;根据移动目标特征属性的预设取值域,采用蒙特卡洛法生成待规划目标集;根据待规划目标集、强化学习环境和损失函数,采用异步多线程学习法,得到训练好的智能体模型;将训练好的智能体模型应用于移动目标遍历访问问题进行最优访问序列估计,得到移动目标遍历访问序列规划结果。该方法降低了多对多大规模问题全局优化设计的计算复杂度,可有效提高求解效率和收敛性。

Description

基于改进指针网络的移动目标遍历访问序列规划方法
技术领域
本申请涉及组合优化技术领域,特别是涉及一种基于改进指针网络的移动目标遍历访问序列规划方法。
背景技术
旅行商问题(Traveling Salesman Problem, TSP)作为传统遍历访问序列规划基准问题,已被广泛研究。这类问题要求规划者寻找一条遍访n个给定城市的最短路径,其中城市坐标固定,任意两城市间距固定,其穷举计算时间复杂度为城市数量的阶乘
Figure SMS_1
。移动目标旅行商问题(Moving Target Traveling Salesman Problem, MTTSP)是传统TSP的一种变体,其增加了目标的动态性,即目标以一种可预报的规律运动,目标的瞬时坐标和任意两目标间距(或转移成本)是时间的函数,旅行商问题示意图如图1所示,其中(a)为传统旅行商问题,(b)为移动目标旅行商问题示意图。该问题通常分解为顶层访问顺序、中层时间分割和底层转移成本估计三个子问题,多对多移动目标遍历访问问题分解示意图如图2所示。目标的动态性导致了两项难点:其一,复杂度激增,记中、底层求解方法为/>
Figure SMS_2
,其中/>
Figure SMS_3
分别为顶、中层方案,MTTSP穷举计算时间复杂度为/>
Figure SMS_4
;其二,组合优化问题和连续参数优化问题的结合引起了离散参数空间与连续参数空间的耦合,更难寻优。
航天器对多空间目标的遍历访问序列规划问题是航天任务规划领域中典型的MTTSP,如对多卫星的序贯在轨服务任务、对多碎片的序贯交会清除任务、对多小行星序贯飞越巡察任务等。不同于欧式空间问题,其属于轨道流形问题,转移成本计算复杂度
Figure SMS_5
较高,全局优化难度大。
2015年DeepMind首席科学家Oriol Vinyals提出了指针网络(Pointer Networks,PN),用于解决凸包、Delaunay 三角剖分和TSP等组合优化问题。基于循环神经网络编码器-解码器模型和注意力机制构造离散组合问题的求解器,可有效解决若干经典组合优化问题,其优势是适用于目标数量变化的问题。过去数年间诸多学者研究了指针网络在组合调度领域各类问题的应用变种。然而,尚未出现可有效解决MTTSP的相关研究。
发明内容
基于此,有必要针对上述技术问题,提供一种基于改进指针网络的移动目标遍历访问序列规划方,该方法克服了现有技术中存在的求解效率低、收敛性不足等缺陷。该方法基于循环神经网络(Recurrent Neural Network, RNN)建立求解器模型,包含数据编码器(Encoder)、目标排序器(Target Sequencer)和时间分割器(Time Cutter),通过蒙特卡洛(Monte Carlo)法在定义域内生成随机样本,基于行动者-评论家(Actor-Critic)算法训练模型,可获得具有较强泛化水平的移动目标遍历访问序列规划智能体。
一种基于改进指针网络的移动目标遍历访问序列规划方法,所述方法包括:
给定移动目标的初始位置属性、运动属性以及运动规律,并提取移动目标特征属性。
构建基于改进指针网络的智能体模型;所述智能体模型包括决策器网络和评价器网络,所述决策器网络包括目标排序器和任务时间分割器;所述目标排序器包括第一编码器和目标排序解码器,所述任务时间分割器包括第二编码器和任务时间分割解码器,所述评价器网络包括第三编码器和期望奖励估计解码器;
根据移动目标特征属性的预设取值域,采用蒙特卡洛法生成待规划目标集。
构建强化学习环境,定义损失函数。
根据所述待规划目标集、所述强化学习环境以及所述损失函数,采用异步多线程学习法对智能体模型进行训练,得到训练好的智能体模型。
将训练好的智能体模型应用于移动目标遍历访问问题进行最优访问序列估计,得到移动目标遍历访问序列规划结果。
上述基于改进指针网络的移动目标遍历访问序列规划方法,所述方法包括:给定移动目标的初始位置属性、运动属性以及运动规律,并提取移动目标特征属性;构建基于改进指针网络的智能体模型;智能体模型包括决策器网络和评价器网络,决策器网络包括目标排序器和任务时间分割器;目标排序器包括第一编码器和目标排序解码器,任务时间分割器包括第二编码器和任务时间分割解码器,评价器网络包括第三编码器和期望奖励估计解码器;根据移动目标特征属性的预设取值域,采用蒙特卡洛法生成待规划目标集;构建强化学习环境,定义损失函数;根据待规划目标集、强化学习环境以及损失函数,采用异步多线程学习法对智能体模型进行训练,得到训练好的智能体模型;将训练好的智能体模型应用于移动目标遍历访问问题进行最优访问序列估计,得到移动目标遍历访问序列规划结果。该方法降低了多对多大规模问题全局优化设计的计算复杂度,可有效提高求解效率和收敛性。
附图说明
图1为旅行商问题示意图,其中(a)为传统旅行商问题,(b)为移动目标旅行商问题示意图;
图2为多对多移动目标遍历访问问题分解示意图;
图3为一个实施例中基于改进指针网络的移动目标遍历访问序列规划方法的流程示意图;
图4为另一个实例中二维直线匀速运动目标集的访问序列规划问题的示意图;
图5为另一个实例中二维圆周匀速运动目标集的访问序列规划问题的示意图;
图6为另一个实例中考虑J 2摄动的近地多星交会序列规划问题的示意图;
图7为另一个实施例中智能体目标排序器结构示意图;
图8为另一个实施例中智能体时间分割器结构示意图;
图9为另一个实施例中智能体模型的训练算法流程图;
图10为另一个实施例中训练后的智能体模型的应用流程图;
图11为另一个实施例中本发明方法求解实例一的结果图;
图12为另一个实施例中本发明方法求解实例二的结果图;
图13为另一个实施例中智能体与蚁群算法的性能比较。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图3所示,提供了一种基于改进指针网络的移动目标遍历访问序列规划方法,该方法包括以下步骤:
步骤1:给定移动目标的初始位置属性、运动属性以及运动规律,并提取移动目标特征属性。
具体的,给定移动目标的初始位置属性
Figure SMS_6
、运动属性/>
Figure SMS_7
和运动规律/>
Figure SMS_8
移动目标特征属性为上述运动规律函数中除时间t以外的自变量,即初始位置属性和运动属性,记为
Figure SMS_9
具体实例一:本实例考虑一个二维直线匀速运动目标集的遍历访问序列规划问题,如图4,记其初始位置属性为
Figure SMS_10
,运动属性为/>
Figure SMS_11
,则运动规律为
Figure SMS_12
具体实例二:本实例考虑一个二维圆周匀速运动目标集的遍历访问序列规划问题,如图5,记其初始位置属性为
Figure SMS_13
,其中4项属性分别为圆周运动的圆心二维坐标、半径和相对参考方位的初始相位角;记运动属性为/>
Figure SMS_14
,其中2项属性分别为圆周运动半径和角速度;则运动规律为/>
Figure SMS_15
具体实例三:本实例考虑一个三维开普勒运动目标集的遍历访问序列规划问题,为使其具有代表性并不失求解难度,将其特殊化为考虑
Figure SMS_16
摄动的近地多星遍历交会问题,如图6。记其初始位置及运动属性为/>
Figure SMS_17
,其中9项属性分别为卫星初始运行轨道的半长轴、偏心率、轨道倾角、升交点赤经、近地点幅角和真近点角,以及
Figure SMS_18
摄动下轨道面升交点赤经漂移率、近地点幅角漂移率、真近点角变化率,如式(1)所示:
Figure SMS_19
(1)
其中,
Figure SMS_20
为地球平均半径,/>
Figure SMS_21
为地心引力常数。则运动规律为
Figure SMS_22
,其中,xyz为位置的三个分量,/>
Figure SMS_23
为位置预报函数。
步骤2:构建基于改进指针网络的智能体模型。
智能体模型包括决策器网络和评价器网络,决策器网络包括目标排序器和任务时间分割器;目标排序器包括第一编码器和目标排序解码器,任务时间分割器包括第二编码器和任务时间分割解码器,评价器网络包括第三编码器和期望奖励估计解码器。
具体的,目标排序器用于采用第一编码器对移动目标序列特征属性进行编码,并将得到的编码状态解码为访问目标的索引序列;其中,第一编码器的作用是将不定长目标序列的显式特征属性数据转化为定长的隐式决策背景数据,将移动目标序列特征属性采用卷积嵌入处理,得到目标特征嵌入向量,并将目标特征嵌入向量采用LSTM网络单元进行编码,得到每个目标对应的编码状态输出集合和所有目标的综合编码状态;目标排序解码器用于将编码状态输出解码为访问目标的索引序列,即按照访问顺序输出目标在待规划集中的索引序号。
任务时间分割器用于采用第二编码器对移动目标序列特征属性进行编码,并将得到的编码状态根据访问目标的索引序列采用任务时间分割解码器进行解码,得到各段两个目标间的转移时长;其中,第二编码器用于将移动目标序列特征属性采用卷积嵌入处理,得到目标特征嵌入向量,并将目标特征嵌入向量采用LSTM网络单元进行编码,得到每个目标对应的编码状态输出集合和所有目标的综合编码状态;任务时间分割解码器用于根据访问目标的索引序列将编码状态输出集合解码为各段两目标间转移时长的期望值,将期望值作为均值构建任务时间分割方案采样的联合高斯分布,并采用蒙特卡洛法,得到各段两个目标间的转移时长。
评价器网络用于估计期望指标值,作为决策器网络优化的基线,其中第三编码器网络用于将目标的特征属性编码,期望奖励估计解码器用于将编码状态转化为指标的期望值。
步骤3:根据移动目标特征属性的预设取值域,采用蒙特卡洛法生成待规划目标集。
具体实例一:二维直线匀速运动目标集的遍历访问序列规划问题。
给出移动目标的特征属性及其取值域,约束其两目标间的转移时间。
表1 实例一移动目标特征属性及其取值域
Figure SMS_24
具体实例二:二维圆周匀速运动目标集的遍历访问序列规划问题。
给出移动目标的特征属性及其取值域,约束其两目标间的转移时间。
表2 实例二移动目标特征属性及其取值域
Figure SMS_25
具体实例三:考虑
Figure SMS_26
摄动的近地多星遍历交会问题。
给出移动目标的特征属性及其取值域,约束其两目标间的转移时间。
表3 实例三移动目标特征属性及其取值域
Figure SMS_27
步骤4:构建强化学习环境,定义损失函数。
具体的,异步的优势行动者评论家算法(Asynchronous Advantage Actor-Critic,简称:A3C架构)是Mnih等人根据异步强化学习(Asynchronous ReinforcementLearning,简称:ARL)的思想,是一种通用的异步并发强化学习框架,A3C框架解决了Actor-Critic难以收敛的问题。A3C的主要思想是通过多个智能体并行学习并整合其所有经验。
步骤5:根据待规划目标集、强化学习环境以及损失函数,采用异步多线程学习法对智能体模型进行训练,得到训练好的智能体模型。
具体的,利用强化学习的方式对智能体模型进行训练,得到训练好的智能体模型。
步骤6:将训练好的智能体模型应用于移动目标遍历访问问题进行最优访问序列估计,得到移动目标遍历访问序列规划结果。
上述基于改进指针网络的移动目标遍历访问序列规划方法中,所述方法包括:基于循环神经网络编码器-解码器模型和注意力机制搭建访问序列规划智能体,其主要由待规划目标集的特征属性编码器、目标排序解码器和任务时间分割解码器组成。首先,提取移动目标特征属性,确定任务时间约束,依此配置智能体结构参数;其次,基于蒙特卡洛法在给定的目标特征属性取值域内随机生成训练样本数据,基于异步优势函数行动者-评论家算法框架构造期望奖励预测器,优化智能体的可训练参数。最后将训练后的智能体应用于多对多移动目标遍历访问任务规划问题中的一对多访问序列快速确定和指标估计,从而优化外层的多对多目标分配方案。该方法降低了多对多大规模问题全局优化设计的计算复杂度,可有效提高求解效率和收敛性。
在其中一个实施例中,第一编码器、第二编码器以及第三编码器的结构相同,参数不同;步骤2包括:构建决策器网络的目标排序器;第一编码器包括一维卷积层和编码单元,编码单元是采用LSTM网络单元构建的;目标排序解码器包括:第一解码单元、第一注意力机制以及softmax激活函数;构建决策器网络的任务时间分割器;任务时间分割解码器包括:第二解码单元、第二注意力机制、多层感知机、ReLu激活函数;第一解码单元和第二解码单元均是采用LSTM网络单元构建的;构建评价器网络的第三编码器和期望奖励估计解码器。
在其中一个实施例中,在第一编码器中:将移动目标序列特征属性输入到一维卷积层中,得到每个目标特征属性相对应的目标特征嵌入向量;目标特征嵌入向量为:
Figure SMS_28
(2)
其中,
Figure SMS_29
为需要规划的第/>
Figure SMS_30
个移动目标序列特征属性,/>
Figure SMS_31
是需要规划的n个目标的特征属性;/>
Figure SMS_32
为一维卷积核权重,是神经网络的可训练参数,维度为卷积核维度×嵌入维度;/>
Figure SMS_33
为与每个移动目标特征属性相对应的目标特征嵌入向量,/>
Figure SMS_34
是所有与目标特征属性相对应的目标特征嵌入向量。
将目标特征嵌入向量输入到编码单元中,将各目标特征嵌入向量按无特定默认顺序依次编码,得到每个移动目标特征属性对应的编码隐层状态输出集合和每次编码的综合状态为:
Figure SMS_35
(3)
其中,
Figure SMS_36
为编码单元的LSTM网络单元的可训练参数集合,/>
Figure SMS_37
和/>
Figure SMS_38
分别为将第/>
Figure SMS_39
个目标编码的隐层状态和第/>
Figure SMS_40
次编码的综合状态。
具体的,对于编码的首个目标可将
Figure SMS_41
和/>
Figure SMS_42
初始化为0向量。编码单元的维度为嵌入维度×LSTM隐层维度。将各目标特征嵌入向量按无特定默认顺序依次编码,得到每个目标对应的编码状态输出集合/>
Figure SMS_43
和所有目标的综合编码状态/>
Figure SMS_44
在其中一个实施例中,目标排序解码器的结构如图7所示。在目标排序解码器(Target Sequencer Decoder)中:将目标特征嵌入向量输入到解码单元中,得到短期记忆隐层输出和长期记忆综合状态输出为:
Figure SMS_45
(4)
其中,
Figure SMS_46
表示解码单元的可训练参数集合;/>
Figure SMS_47
和/>
Figure SMS_48
分别第/>
Figure SMS_49
个目标特征属性通过解码单元后的短期记忆隐层输出和长期记忆综合状态输出。其中/>
Figure SMS_50
初始化为0向量,/>
Figure SMS_51
。采用LSTM网络构建的目标排序解码器的维度为嵌入维度×LSTM隐层维度。
将短期记忆隐层输出和对编码隐层状态输出集合采用第一注意力机制进行注意力相关性计算,得到隐层状态的注意力权重为:
Figure SMS_52
(5)
其中,
Figure SMS_55
、/>
Figure SMS_56
和/>
Figure SMS_59
为注意力计算中的可训练参数,是解码器的可训练参数,/>
Figure SMS_53
Figure SMS_58
矩阵的维度均为LSTM隐层输出×注意力维度,tanh为双曲正切激活函数,
Figure SMS_60
;/>
Figure SMS_61
为第/>
Figure SMS_54
次解码对第/>
Figure SMS_57
项编码隐层状态的注意力权重。
根据目标状态标识对注意力权重进行修正,然后对修正结果采用softmax函数进行激活,得到目标的概率权重为:
Figure SMS_62
(6)
其中,
Figure SMS_63
为第/>
Figure SMS_64
次选择各目标的概率权重;/>
Figure SMS_65
为第/>
Figure SMS_66
个目标状态标识,取值0或1,若该目标尚未被选择则取1,否则取0,从而使该目标对应权重过softmax激活层后所得被选择概率为0;/>
Figure SMS_67
为第/>
Figure SMS_68
次选择各目标的注意力权重的修正结果;softmax为分类概率分布激活函数/>
Figure SMS_69
,其中,T为softmax函数的模型蒸馏温度超参数,其值越大概率权重矩阵a的各维度的值(即各目标被选择概率权重)的差别越小,算法越具探索性,通常设定其随训练过程逐渐衰减。
根据目标的概率权重采用蒙特卡洛法随机选择目标,得到一个目标的索引,依此法进行多轮次选择,确定目标访问序列的索引。
在其中一个实施例中,任务时间分割解码器(Time Cutter Decoder)的结构如图8所示。在任务时间分割解码器中:
将待规划目标集的目标特征嵌入向量按照目标访问序列的索引的顺序依次输入到第二解码单元中,得到第二短期记忆隐层输出和第二长期记忆综合状态输出为:
Figure SMS_70
(7)
其中,
Figure SMS_71
为第二解码单元中LSTM网络单元的可训练参数集合;/>
Figure SMS_72
和/>
Figure SMS_73
分别第
Figure SMS_74
个目标通过第二解码单元中LSTM网络单元后的第二短期记忆隐层输出和第二长期记忆综合状态输出;/>
Figure SMS_75
为待规划目标集的目标特征嵌入向量。
将第二短期记忆隐层输出和对所有目标的特征属性通过第二编码器编码后得到的短期记忆隐层输出采用注意力机制进行注意力相关性计算,得到隐层状态的注意力权重为:
Figure SMS_76
(8)
其中,
Figure SMS_77
和/>
Figure SMS_78
为注意力计算中的可训练参数,tanh为双曲正切激活函数;
Figure SMS_79
为第/>
Figure SMS_80
次解码对第/>
Figure SMS_81
项编码隐层状态的注意力权重,/>
Figure SMS_82
为第/>
Figure SMS_83
个目标的特征属性通过第二编码器编码后的目标编码的隐层状态。
根据注意力权重和所有目标对应的经第二编码器输出的短期记忆隐层状态,得到解码的隐层输出为;
Figure SMS_84
(9)
其中,
Figure SMS_85
为解码的隐层输出。
将解码的隐层输出输入到多层感知机中,得到两目标间转移时长为:
Figure SMS_86
(10)
Figure SMS_87
(11)
其中,
Figure SMS_88
为由第/>
Figure SMS_93
个目标转移到第/>
Figure SMS_97
个目标的任务时长期望值,/>
Figure SMS_90
为线性整流函数,/>
Figure SMS_94
,其变体/>
Figure SMS_98
Figure SMS_101
分别为两目标间转移时长的下限和上限约束;/>
Figure SMS_91
和/>
Figure SMS_95
分别为多层感知机的隐层的权重矩阵和偏置向量,/>
Figure SMS_99
和/>
Figure SMS_102
分别为多层感知机的输出层的权重矩阵和偏置向量,皆为神经网络的可训练参数;/>
Figure SMS_89
为第/>
Figure SMS_92
次解码多层感知机的隐层状态。多层感知机用于将解码隐层输出映射为两目标间转移时长,两目标间转移时长的物理意义:为从第/>
Figure SMS_96
个目标到第/>
Figure SMS_100
个目标的转移时长。MLP的输入维度为LSTM的隐层维度,输出维度为1。
通过n次解码获得遍历访问序列各段两目标间转移任务时长的期望值,以遍历访问序列各段两目标间转移任务时长的期望值为均值、给定超参数
Figure SMS_103
为标准差,构建任务时间分割方案采样的联合高斯分布为:
Figure SMS_104
(12)
其中,
Figure SMS_105
为遍历访问序列各段两目标间转移任务时长向量,/>
Figure SMS_106
为遍历访问序列各段两目标间转移任务时长;/>
Figure SMS_107
为遍历访问序列各段两目标间转移任务时长的均值。/>
Figure SMS_108
值越大算法越具探索性,令其初值为/>
Figure SMS_109
,设定其随训练过程逐渐衰减。
在联合高斯分布的基础上采用Ornstein-Uhlenbeck探索法进行随机采样(即以
Figure SMS_110
的概率在其定义域内随机采样,以/>
Figure SMS_111
的概率基于联合高斯分布采样),采样若超出边界值则直接截断取为边界值,并通过梯度下降法对转移时长进行终端收敛;两个目标间的转移时长为:
Figure SMS_112
(13)
其中,
Figure SMS_113
为第/>
Figure SMS_114
个目标转移到第/>
Figure SMS_115
个目标间的转移时长。
具体的,将编码状态解码为各段两目标间转移时长的期望值,以此作为均值构建任务时间分割方案采样的联合高斯分布。其方差为给定超参数,决定了算法探索性,且随训练进程衰减。通过蒙特卡洛法对任务时间分割方案的联合高斯分布进行随机采样。
值得注意的是,目标排序器和时间分割器各自分别采用一个采用LSTM网络单元构建的编码器,二者结构相同,旨在避免目标排序与时间分割两个模块在梯度反向传播过程中相互干扰。
在其中一个实施例中, 在所述评价器网络中:将待规划目标集特征属性输入到第三编码器中,得到各目标编码隐层状态和编码器综合编码状态;将编码器综合编码状态与所有编码隐层状态输入到期望奖励估计解码器中,采用注意力机制进行注意力相关性计算,得到各目标编码隐层状态的注意力权重为:
Figure SMS_116
(14)
其中,
Figure SMS_117
为各目标编码隐层状态的注意力权重,
Figure SMS_118
为评价器网络的可训练参数,/>
Figure SMS_119
为第/>
Figure SMS_120
个目标编码的隐层状态。
将注意力权重和目标编码隐层状态进行编码,得到综合编码注意力隐层输出为:
Figure SMS_121
(15)
其中,
Figure SMS_122
为综合编码注意力隐层输出。
将综合编码注意力隐层输出采用多层感知机映射为遍历访问任务的全局期望奖励;全局期望奖励为:
Figure SMS_123
(16)
Figure SMS_124
(17)
其中,
Figure SMS_125
分别为评价器网络的多层感知机的隐层和输出层的权重矩阵,/>
Figure SMS_126
分别为评价器网络的多层感知机的隐层和输出层的偏置向量;
Figure SMS_127
分别为评价器网络的多层感知机的隐层状态和输出的期望奖励预测值。
在其中一个实施例中,步骤4包括:构建A3C架构的强化学习环境;设置智能体的损失函数;智能体的损失函数包括:决策器网络的损失函数和评价器网络的损失函数,决策器网络的损失函数采用优势函数策略梯度损失函数,评价器网络的损失函数采用均方差损失函数。
决策器网络的损失函数为:
Figure SMS_128
其中,
Figure SMS_130
为输入的待规划目标特征属性数据;/>
Figure SMS_133
为决策器所得方案对应的奖励值,/>
Figure SMS_136
为评论家模型预测的期望奖励;/>
Figure SMS_129
表示目标排序器全部可训练参数,
Figure SMS_132
表示目标排序器第/>
Figure SMS_135
次采样得到的下一个访问目标在本次采样中对应的被选择概率;/>
Figure SMS_138
表示时间分割器全部可训练参数,/>
Figure SMS_131
表示时间分割器采样得到的由第/>
Figure SMS_134
个目标到第/>
Figure SMS_137
个目标转移任务时长对应的高斯分布概率。
评价器网络的损失函数为:
Figure SMS_139
(19)
其中,
Figure SMS_140
表示Critic网络全部可训练参数,/>
Figure SMS_141
为Critic网络预测的期望奖励,/>
Figure SMS_142
为决策器网络所得方案对应的奖励值。
具体的,决策器网络作为强化学习方法中的行动者(Actor)模型,输入给定移动目标集特征属性,得目标访问序列和每段单对单转移任务的开始、结束时间序列,计算最优转移路径总长(或总成本),令Actor的奖励函数为
Figure SMS_143
在其中一个实施例中,智能体模型的训练算法流程图如图9所示。步骤5包括:将待规划目标集的移动目标特征属性分别输入到决策器网络和评价器网络中,得到决策器网络所得方案对应的实际奖励值和评价器网络预测的期望奖励;根据实际奖励值、期望奖励以及损失函数,计算决策器网络的损失和评价器网络模型的损失;根据决策器网络的损失采用反向传播计算策略梯度,通过预定的优化器,更新决策器网络的可训练参数;根据评价器网络的损失采用反向传播计算价值梯度,通过预定的优化器,更新评价器网络的可训练参数;通过蒙特卡洛法随机生成待规划目标集,进行下一轮训练,直到达到预设条件(预设条件为损失函数在一定步长内变化小于给定阈值,或达到最大训练步数),得到训练好的智能体模型。
在其中一个实施例中,将待规划目标集的移动目标特征属性分别输入到决策器网络和评价器网络中,得到决策器网络所得方案对应的实际奖励值和评价器网络预测的期望奖励,包括:将待规划目标集的移动目标特征属性输入到决策器网络的目标排序器中,得到访问序列索引;将待规划目标集的移动目标特征属性根据访问序列索引输入到决策器网络的时间分割器中,得到各段两个目标间的转移时长;采用近似方法估计任两目标间转移成本,确定决策器网络所得方案对应的奖励值;将待规划目标集的移动目标特征属性输入到评价器网络的第三编码器中进行编码,并将得到的编码结果输入到期望奖励估计解码器中,得到评价器模型预测的期望奖励。
在其中一个实施例中,步骤6包括:将训练好的智能体应用于多主体对多移动目标遍历访问任务分配问题的全局优化中,进行目标分配方案确定情况下的访问序列快速规划和序贯访问总指标估计,从而辅助外层目标分配方案的全局优化,得到移动目标遍历访问序列规划结果。
本方法是基于循环神经网络编码器-解码器模型和注意力机制搭建访问序列规划智能体,其主要包括待规划目标集的特征属性编码器、目标排序解码器和任务时间分割解码器。首先,提取移动目标特征属性,确定任务时间约束,依此配置智能体结构参数;其次,基于蒙特卡洛法在给定的目标特征属性取值域内随机生成训练样本数据,基于异步优势函数行动者-评论家算法框架构造期望奖励预测器,优化智能体的可训练参数。最后将训练后的智能体应用于多对多移动目标遍历访问任务规划问题中的一对多访问序列快速确定和指标估计,从而优化外层的多对多目标分配方案。
训练后的智能体模型的应用流程如图10所示。
在一个具体的实施例中,在目标访问顺序和时间确定后,将序贯访问问题分解为多个单对单目标转移问题,进而求解使路径最短或转移成本最低的单对单目标转移方案。下面结合实施例分析底层的单对单最优转移问题:
具体实例一、二:
对于二维直线匀速运动目标集的遍历访问序列规划问题和二维圆周匀速运动目标集的遍历访问序列规划问题,规定其由上一目标转移至下一目标的速度不限,仅考虑转移路径长度,记其由目标
Figure SMS_144
出发的时刻为/>
Figure SMS_145
,到达目标/>
Figure SMS_146
的时刻为/>
Figure SMS_147
,任务时间确定情况下的最短路径长度为/>
Figure SMS_148
,其中/>
Figure SMS_149
,/>
Figure SMS_150
为移动目标的状态预报方法。
具体实例三:
对于考虑
Figure SMS_151
摄动的近地空间单对单交会问题,记任务时间确定情况下的两目标间最优转移成本为/>
Figure SMS_152
,其中/>
Figure SMS_153
为固定任务时间计算最优转移速度增量的广义函数。
若精确计算,效率通常较低。由于旨在顶层全局优化,可使用快速估计转移成本的近似算法代替精确优化算法。文献(doi.org/10.2514/1.G005220)提出了一种可有效快速估计
Figure SMS_154
摄动下单对单交会最优转移速度增量的半解析求法,可应用于本实施例。
需要特别说明的是,任意能以多项式时间复杂度快速估计两目标间最优转移成本的算法与其对应的多目标遍历访问序列规划问题都适用于本方法。
分别针对每一段单对单转移任务求解转移成本,最后计算总成本
Figure SMS_155
为:
Figure SMS_156
(20)
在一个具体的实施例中,利用步骤4所述算法训练智能体,训练设备为230内核3.40GHz服务器,三个实例中智能体的超参数配置如表4所示。采用本发明方法求解实例一、实例二的结果如图11、图12 所示。对于实施例三,随机生成样本可能出现两目标间转移无法同时满足时间约束和机动约束的情况,此时重新生成样本,直到该样本与其他半数以上目标存在可转移关系。
表4智能体超参数配置
Figure SMS_157
将智能体所得解与蚁群算法优化解进行比较,进行10000次独立测试,测试设备为内存16GB速度3.70GHz的台式电脑,结果统计如表5所示。其中,近最优序列指与最优序列差异目标数小于3的访问序列;若所得序列与最优序列差异数目超过半数,认为Actor故障。蚁群算法的参数配置如表6所示。
表5智能体性能验证
Figure SMS_158
表6蚁群算法参数
Figure SMS_159
/>
如图10为智能体在多主体对多目标的遍历任务分配与访问序列规划问题中的应用流程。通过实例三测试智能体处理多航天器对大规模目标交会任务规划问题的性能。将航天器数量固定为10,分工清除123个空间碎片,不同航天器可在相同时段内同步执行各自任务,碎片星历见“The GTOC portal”(https://sophia.estec.esa.int/gtoc_portal/?page_id=814. Problem data: Debris orbits)。建立“碎片→航天器”目标分配信息素矩阵,矩阵每一行元素为单个碎片被分配至各航天器的概率权重。利用蚁群算法信息素更新策略迭代目标分配矩阵,优化过程中通过该矩阵随机采样生成碎片到航天器的分配方案,此后通过智能体的Actor生成交会序列并估计实际指标J。另外,基于蚁群算法构建“碎片→碎片”信息素矩阵,与序列规划智能体进行比较;使用“碎片→碎片”信息素矩阵生成某航天器的交会序列时,将不属于该航天器的目标信息素浓度暂时置为0。两种方法的优化收敛过程如图13所示。蚁群算法概率权重矩阵迭代的超参数配置同表6。使用序列规划智能体和传统优化方法所得解的指标分别为22657.13m/s和23336.82m/s,智能体所得解相对优出3.3%。
本发明利用人工神经网络构造移动目标遍历访问序列快速求解器,能在很短的时间内以非常小的计算代价快速求得最优访问序列和相应指标的近似值,在有效获得最优解的同时极大程度降低问题复杂性,特别适用于多主体面向大规模移动目标备选集的目标选择与访问序列规划问题,如多航天器对大规模碎片云中多碎片的选择与连续清除任务、多服务航天器对多用户航天器的选择与序贯在轨服务任务等。
应该理解的是,虽然图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于改进指针网络的移动目标遍历访问序列规划方法,其特征在于,所述方法包括:
给定被遍历访问的多个移动目标的初始位置属性、运动属性以及运动规律,并提取移动目标特征属性;所述移动目标为卫星、小行星或空间碎片;所述运动属性包括卫星初始运行轨道的半长轴、偏心率、轨道倾角、升交点赤经、近地点幅角和真近点角,以及摄动下轨道面升交点赤经漂移率、近地点幅角漂移率、真近点角变化率;
构建基于改进指针网络的智能体模型;所述智能体模型包括决策器网络和评价器网络,所述决策器网络包括目标排序器和任务时间分割器;所述目标排序器包括第一编码器和目标排序解码器,所述任务时间分割器包括第二编码器和任务时间分割解码器,所述评价器网络包括第三编码器和期望奖励估计解码器;所述目标排序器用于采用第一编码器对移动目标特征属性进行编码,并将得到的编码状态解码为访问目标的索引序列;其中,所述第一编码器用于将不定长移动目标序列的显式特征属性数据转化为定长的隐式决策背景数据,将移动目标特征属性采用卷积嵌入处理,得到目标特征嵌入向量,并将目标特征嵌入向量采用LSTM网络单元进行编码,得到每个移动目标对应的编码状态输出集合和所有移动目标的综合编码状态;所述目标排序解码器用于将编码状态输出解码为访问目标的索引序列;所述任务时间分割器用于采用所述第二编码器对移动目标特征属性进行编码,并将得到的编码状态根据访问目标的索引序列采用任务时间分割解码器进行解码,得到各段两个目标间的转移时长;其中,所述第二编码器用于将移动目标特征属性采用卷积嵌入处理,得到目标特征嵌入向量,并将目标特征嵌入向量采用LSTM网络单元进行编码,得到每个目标对应的编码状态输出集合和所有目标的综合编码状态;任务时间分割解码器用于根据访问目标的索引序列将编码状态输出集合解码为各段两目标间转移时长的期望值,将期望值作为均值构建任务时间分割方案采样的联合高斯分布,并采用蒙特卡洛法,得到各段两个目标间的转移时长;所述评价器网络用于估计期望指标值,作为决策器网络优化的基线,其中第三编码器网络用于将目标的特征属性进行编码,期望奖励估计解码器用于将编码状态转化为指标的期望值;
根据移动目标特征属性的预设取值域,采用蒙特卡洛法生成待规划目标集;
构建强化学习环境,定义损失函数;
根据所述待规划目标集、所述强化学习环境以及所述损失函数,采用异步多线程学习法对智能体模型进行训练,得到训练好的智能体模型;
将训练好的智能体模型应用于航天器对多个移动目标的遍历访问序列规划问题进行最优访问序列估计,得到航天器对多个移动目标的遍历访问序列规划结果。
2.根据权利要求1所述的方法,其特征在于,所述第一编码器、所述第二编码器以及所述第三编码器的结构相同,参数不同;
构建基于改进指针网络的智能体模型,包括:
构建所述决策器网络的所述目标排序器;所述第一编码器包括一维卷积层和编码单元,所述编码单元是采用LSTM网络单元构建的;所述目标排序解码器包括:第一解码单元、第一注意力机制以及softmax激活函数;
构建所述决策器网络的所述任务时间分割器;所述任务时间分割解码器包括:第二解码单元、第二注意力机制、多层感知机、ReLu激活函数;所述第一解码单元和所述第二解码单元均是采用LSTM网络单元构建的;
构建所述评价器网络的所述第三编码器和所述期望奖励估计解码器。
3.根据权利要求2所述的方法,其特征在于,在所述第一编码器中:
将移动目标特征属性输入到所述一维卷积层中,得到每个目标特征属性相对应的目标特征嵌入向量;所述目标特征嵌入向量为:
Figure QLYQS_1
其中,
Figure QLYQS_2
为需要规划的第i个移动目标特征属性;/>
Figure QLYQS_3
为一维卷积核权重;/>
Figure QLYQS_4
为与每个移动目标特征属性相对应的目标特征嵌入向量;
将所述目标特征嵌入向量输入到所述编码单元中,将各目标特征嵌入向量按无特定默认顺序依次编码,得到每个移动目标特征属性对应的编码隐层状态输出集合和每次编码的综合状态为:
Figure QLYQS_5
其中,
Figure QLYQS_6
为编码单元的LSTM网络单元的可训练参数集合,/>
Figure QLYQS_7
和/>
Figure QLYQS_8
分别为将第i个目标编码的隐层状态和第i次编码的综合状态。
4.根据权利要求3所述的方法,其特征在于,在所述目标排序解码器中:
将目标特征嵌入向量输入到所述解码单元中,得到短期记忆隐层输出和长期记忆综合状态输出为:
Figure QLYQS_9
其中,
Figure QLYQS_10
表示解码单元的可训练参数集合;/>
Figure QLYQS_11
和/>
Figure QLYQS_12
分别第j个目标特征属性通过解码单元后的短期记忆隐层输出和长期记忆综合状态输出;
将所述短期记忆隐层输出和对所述编码隐层状态输出集合采用所述第一注意力机制进行注意力相关性计算,得到隐层状态的注意力权重为:
Figure QLYQS_13
其中,vW 1W 2为注意力计算中的可训练参数,tanh为双曲正切激活函数;
u j,i为第j次解码对第i项编码隐层状态的注意力权重;
根据目标状态标识对所述注意力权重进行修正,然后对修正结果采用softmax函数进行激活,得到目标的概率权重为:
Figure QLYQS_14
其中,
Figure QLYQS_15
为第j次选择各目标的概率权重;/>
Figure QLYQS_16
为第i个目标状态标识,/>
Figure QLYQS_17
为第j次选择各目标的注意力权重的修正结果;
根据所述目标的概率权重采用蒙特卡洛法随机选择目标,得到一个目标的索引,依此法进行多轮次选择,确定目标访问序列的索引。
5.根据权利要求4所述的方法,其特征在于,在所述任务时间分割解码器中:
将待规划目标集的目标特征嵌入向量按照所述目标访问序列的索引的顺序依次输入到第二解码单元中,得到第二短期记忆隐层输出和第二长期记忆综合状态输出为:
Figure QLYQS_18
其中,
Figure QLYQS_19
为第二解码单元中LSTM网络单元的可训练参数集合;/>
Figure QLYQS_20
和/>
Figure QLYQS_21
分别第j个目标通过第二解码单元中LSTM网络单元后的第二短期记忆隐层输出和第二长期记忆综合状态输出;/>
Figure QLYQS_22
为待规划目标集的目标特征嵌入向量;
将所述第二短期记忆隐层输出和对所有目标的特征属性通过第二编码器编码后得到的短期记忆隐层输出采用注意力机制进行注意力相关性计算,得到隐层状态的注意力权重为:
Figure QLYQS_23
其中,
Figure QLYQS_24
和/>
Figure QLYQS_25
为注意力计算中的可训练参数,tanh为双曲正切激活函数;/>
Figure QLYQS_26
为第j次解码对第i项编码隐层状态的注意力权重,/>
Figure QLYQS_27
为第i个目标的特征属性通过第二编码器编码后的目标编码的隐层状态;
根据所述注意力权重和所有目标对应的经第二编码器输出的短期记忆隐层状态,得到解码的隐层输出为;
Figure QLYQS_28
其中,
Figure QLYQS_29
为解码的隐层输出;
将所述解码的隐层输出输入到所述多层感知机中,得到两目标间转移时长为:
Figure QLYQS_30
Figure QLYQS_31
其中,
Figure QLYQS_33
为由第j个目标转移到第j+1个目标的任务时长期望值,/>
Figure QLYQS_36
为线性整流函数;/>
Figure QLYQS_38
和/>
Figure QLYQS_34
分别为多层感知机的隐层的权重矩阵和偏置向量,/>
Figure QLYQS_35
和/>
Figure QLYQS_37
分别为多层感知机的输出层的权重矩阵和偏置向量,皆为神经网络的可训练参数;/>
Figure QLYQS_39
为第j次解码多层感知机的隐层状态;/>
Figure QLYQS_32
分别为两目标间转移时长的下限和上限约束;
通过n次解码获得遍历访问序列各段两目标间转移任务时长的期望值,以遍历访问序列各段两目标间转移任务时长的期望值为均值、给定超参数
Figure QLYQS_40
为标准差,构建任务时间分割方案采样的联合高斯分布为:
Figure QLYQS_41
其中,
Figure QLYQS_42
为遍历访问序列各段两目标间转移任务时长向量,/>
Figure QLYQS_43
为遍历访问序列各段两目标间转移任务时长;/>
Figure QLYQS_44
为遍历访问序列各段两目标间转移任务时长的均值;
在所述联合高斯分布的基础上采用Ornstein-Uhlenbeck探索法进行随机采样,采样若超出边界值则直接截断取为边界值,并通过梯度下降法对转移时长进行终端收敛;两个目标间的转移时长为:
Figure QLYQS_45
其中,
Figure QLYQS_46
为第j个目标转移到第j+1个目标间的转移时长。
6.根据权利要求2所述的方法,其特征在于,在所述评价器网络中:
将待规划目标集特征属性输入到第三编码器中,得到各目标编码隐层状态和编码器综合编码状态;
将所述编码器综合编码状态与所有所述编码隐层状态输入到期望奖励估计解码器中,采用注意力机制进行注意力相关性计算,得到各目标编码隐层状态的注意力权重为:
Figure QLYQS_47
其中,
Figure QLYQS_48
为各目标编码隐层状态的注意力权重,
Figure QLYQS_49
为评价器网络的可训练参数,/>
Figure QLYQS_50
为第i个目标编码的隐层状态;
将所述注意力权重和所述目标编码隐层状态进行编码,得到综合编码注意力隐层输出为:
Figure QLYQS_51
其中,
Figure QLYQS_52
为综合编码注意力隐层输出;
将所述综合编码注意力隐层输出采用多层感知机映射为遍历访问任务的全局期望奖励;所述全局期望奖励为:
Figure QLYQS_53
Figure QLYQS_54
其中,
Figure QLYQS_55
分别为评价器网络的多层感知机的隐层和输出层的权重矩阵,/>
Figure QLYQS_56
分别为评价器网络的多层感知机的隐层和输出层的偏置向量;
Figure QLYQS_57
分别为评价器网络的多层感知机的隐层状态和输出的期望奖励预测值。
7.根据权利要求1所述的方法,其特征在于,构建强化学习环境,定义损失函数,包括:
构建A3C架构的强化学习环境;
设置智能体的损失函数;所述智能体的损失函数包括:决策器网络的损失函数和评价器网络的损失函数,所述决策器网络的损失函数采用优势函数策略梯度损失函数,所述评价器网络的损失函数采用均方差损失函数。
8.根据权利要求1所述的方法,其特征在于,根据所述待规划目标集、所述强化学习环境以及所述损失函数,采用异步多线程学习法对智能体模型进行训练,得到训练好的智能体模型,包括:
将所述待规划目标集的移动目标特征属性分别输入到所述决策器网络和所述评价器网络中,得到决策器网络所得方案对应的实际奖励值和评价器网络预测的期望奖励;
根据所述实际奖励值、所述期望奖励以及损失函数,计算决策器网络的损失和评价器网络模型的损失;
根据所述决策器网络的损失采用反向传播计算策略梯度,通过预定的优化器,更新决策器网络的可训练参数;
根据评价器网络的损失采用反向传播计算价值梯度,通过预定的优化器,更新评价器网络的可训练参数;
通过蒙特卡洛法随机生成待规划目标集,进行下一轮训练,直到达到预设条件,得到训练好的智能体模型。
9.根据权利要求8所述的方法,其特征在于,将所述待规划目标集的移动目标特征属性分别输入到所述决策器网络和所述评价器网络中,得到决策器网络所得方案对应的实际奖励值和评价器网络预测的期望奖励,包括:
将所述待规划目标集的移动目标特征属性输入到所述决策器网络的所述目标排序器中,得到访问序列索引;
将所述待规划目标集的移动目标特征属性根据所述访问序列索引输入到所述决策器网络的所述时间分割器中,得到各段两个目标间的转移时长;
采用近似方法估计任两目标间转移成本,确定所述决策器网络所得方案对应的奖励值;
将所述待规划目标集的移动目标特征属性输入到所述评价器网络的第三编码器中进行编码,并将得到的编码结果输入到期望奖励估计解码器中,得到评价器模型预测的期望奖励。
10.根据权利要求1所述的方法,其特征在于,将训练好的智能体应用于航天器对多个移动目标的遍历访问问题进行最优访问序列估计,得到航天器对个移动目标遍历访问序列规划结果,包括:
将训练好的智能体应用于航天器对个移动目标的遍历访问任务分配问题的全局优化中,进行目标分配方案确定情况下的访问序列快速规划和序贯访问总指标估计,从而辅助外层目标分配方案的全局优化,得到航天器对多个移动目标遍历访问序列规划结果。
CN202310371070.7A 2023-04-10 2023-04-10 基于改进指针网络的移动目标遍历访问序列规划方法 Active CN116090688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310371070.7A CN116090688B (zh) 2023-04-10 2023-04-10 基于改进指针网络的移动目标遍历访问序列规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310371070.7A CN116090688B (zh) 2023-04-10 2023-04-10 基于改进指针网络的移动目标遍历访问序列规划方法

Publications (2)

Publication Number Publication Date
CN116090688A CN116090688A (zh) 2023-05-09
CN116090688B true CN116090688B (zh) 2023-06-23

Family

ID=86210505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310371070.7A Active CN116090688B (zh) 2023-04-10 2023-04-10 基于改进指针网络的移动目标遍历访问序列规划方法

Country Status (1)

Country Link
CN (1) CN116090688B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117270971B (zh) * 2023-09-15 2024-03-19 上海合芯数字科技有限公司 加载队列控制方法、装置及处理器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9945677B1 (en) * 2015-07-23 2018-04-17 X Development Llc Automated lane and route network discovery for robotic actors
CN109902876A (zh) * 2019-03-01 2019-06-18 腾讯科技(深圳)有限公司 一种确定智能设备移动方向的方法、装置及路径规划系统
CN113641192A (zh) * 2021-07-06 2021-11-12 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN114167898A (zh) * 2021-12-15 2022-03-11 南京航空航天大学 一种无人机收集数据的全局路径规划方法及系统
CN115545350A (zh) * 2022-11-28 2022-12-30 湖南工商大学 综合深度神经网络与强化学习的车辆路径问题求解方法
CN115759915A (zh) * 2022-10-21 2023-03-07 东南大学 基于注意力机制和深度强化学习的多约束车辆路径规划方法
CN115793641A (zh) * 2022-11-28 2023-03-14 北京理工大学 基于采样和深度强化学习的自动驾驶分层路径规划方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147901B (zh) * 2019-04-08 2023-04-07 合肥工业大学 车辆路径规划方法、系统及存储介质
CN111241306B (zh) * 2020-01-21 2022-04-29 浙江大学 一种基于知识图谱和指针网络的路径规划方法
CN111461403B (zh) * 2020-03-06 2023-09-29 上海汽车集团股份有限公司 车辆路径规划方法及装置、计算机可读存储介质、终端
CN112529254B (zh) * 2020-11-19 2022-11-25 歌尔股份有限公司 一种路径规划方法、装置和电子设备
CN113051815B (zh) * 2021-03-18 2023-08-11 浙江大学 一种基于独立指针网络的敏捷成像卫星任务规划方法
CN113313267B (zh) * 2021-06-28 2023-12-08 浙江大学 一种基于值分解和注意力机制的多智能体强化学习方法
CN114815834A (zh) * 2022-04-29 2022-07-29 浙江工业大学 一种舞台环境下的移动智能体动态路径规划方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9945677B1 (en) * 2015-07-23 2018-04-17 X Development Llc Automated lane and route network discovery for robotic actors
CN109902876A (zh) * 2019-03-01 2019-06-18 腾讯科技(深圳)有限公司 一种确定智能设备移动方向的方法、装置及路径规划系统
CN113641192A (zh) * 2021-07-06 2021-11-12 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN114167898A (zh) * 2021-12-15 2022-03-11 南京航空航天大学 一种无人机收集数据的全局路径规划方法及系统
CN115759915A (zh) * 2022-10-21 2023-03-07 东南大学 基于注意力机制和深度强化学习的多约束车辆路径规划方法
CN115545350A (zh) * 2022-11-28 2022-12-30 湖南工商大学 综合深度神经网络与强化学习的车辆路径问题求解方法
CN115793641A (zh) * 2022-11-28 2023-03-14 北京理工大学 基于采样和深度强化学习的自动驾驶分层路径规划方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于双重注意力机制的异步优势行动者评论家算法;凌兴宏;李杰;朱斐;刘全;伏玉琛;;计算机学报(01);全文 *
基于深度强化学习算法的空间站任务重规划方法;史兼郡;张进;罗亚中;郭帅;李智远;李大鹏;;载人航天(04);全文 *
基于自回归预测模型的深度注意力强化学习方法;梁星星;冯旸赫;黄金才;王琦;马扬;刘忠;;软件学报(04);全文 *

Also Published As

Publication number Publication date
CN116090688A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
Willard et al. Integrating physics-based modeling with machine learning: A survey
CN108764560B (zh) 基于长短期记忆神经网络的航空器场面轨迹预测方法
Rückin et al. Adaptive informative path planning using deep reinforcement learning for uav-based active sensing
CN116090688B (zh) 基于改进指针网络的移动目标遍历访问序列规划方法
CN108763377B (zh) 基于卫星故障诊断多源遥测大数据特征提取预处理方法
Zuo et al. A case learning-based differential evolution algorithm for global optimization of interplanetary trajectory design
Hutchinson et al. Vector-valued Gaussian processes on Riemannian manifolds via gauge independent projected kernels
CN117454963A (zh) 一种基于ga-bp神经网络的sgp4模型精度改进方法及系统
Sun et al. An adaptive bi-level task planning strategy for multi-USVs target visitation
He et al. IRLSOT: Inverse reinforcement learning for scene‐oriented trajectory prediction
CN115840893A (zh) 一种多变量时间序列预测方法及装置
Chowdhury et al. Optimal path planning of autonomous marine vehicles in stochastic dynamic ocean flows using a GPU-accelerated algorithm
Mücke et al. Markov chain generative adversarial neural networks for solving Bayesian inverse problems in physics applications
Zhai et al. Parameter estimation and modeling of nonlinear dynamical systems based on Runge–Kutta physics-informed neural network
Tibaldi et al. Bayesian optimization for QAOA
CN113537539B (zh) 一种基于注意力机制的多时间步供热用气量预测模型
Ren et al. Research on satellite orbit prediction based on neural network algorithm
Violos et al. Next position prediction using LSTM neural networks
CN115545159A (zh) 一种深度神经网络的平均海表面温度预报方法
Razak et al. Physics-guided deep learning for improved production forecasting in unconventional reservoirs
Sarma et al. Modelling of foF 2 using neural networks at an equatorial anomaly station
CN114386666A (zh) 一种基于时空相关性的风电场短期风速预测方法
Silva et al. GAN for time series prediction, data assimilation and uncertainty quantification
Aakash et al. Forecasting of Novel Corona Virus Disease (Covid‐19) Using LSTM and XG Boosting Algorithms
Hu et al. A physics-driven deep-learning inverse solver for subsurface sensing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant