CN116090688B

CN116090688B - 基于改进指针网络的移动目标遍历访问序列规划方法

Info

Publication number: CN116090688B
Application number: CN202310371070.7A
Authority: CN
Inventors: 罗亚中; 张嘉城; 朱阅訸
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-06-23
Anticipated expiration: 2043-04-10
Also published as: CN116090688A

Abstract

本申请涉及一种基于改进指针网络的移动目标遍历访问序列规划方法，该方法包括：提取移动目标特征属性；构建基于改进指针网络的智能体模型；模型包括决策器网络和评价器网络，决策器网络包括目标排序器和任务时间分割器；评价器网络包括编码器和期望奖励估计解码器；根据移动目标特征属性的预设取值域，采用蒙特卡洛法生成待规划目标集；根据待规划目标集、强化学习环境和损失函数，采用异步多线程学习法，得到训练好的智能体模型；将训练好的智能体模型应用于移动目标遍历访问问题进行最优访问序列估计，得到移动目标遍历访问序列规划结果。该方法降低了多对多大规模问题全局优化设计的计算复杂度，可有效提高求解效率和收敛性。

Description

基于改进指针网络的移动目标遍历访问序列规划方法

技术领域

本申请涉及组合优化技术领域，特别是涉及一种基于改进指针网络的移动目标遍历访问序列规划方法。

背景技术

旅行商问题(Traveling Salesman Problem, TSP)作为传统遍历访问序列规划基准问题，已被广泛研究。这类问题要求规划者寻找一条遍访n个给定城市的最短路径，其中城市坐标固定，任意两城市间距固定，其穷举计算时间复杂度为城市数量的阶乘

。移动目标旅行商问题(Moving Target Traveling Salesman Problem, MTTSP)是传统TSP的一种变体，其增加了目标的动态性，即目标以一种可预报的规律运动，目标的瞬时坐标和任意两目标间距（或转移成本）是时间的函数，旅行商问题示意图如图1所示，其中（a）为传统旅行商问题，（b）为移动目标旅行商问题示意图。该问题通常分解为顶层访问顺序、中层时间分割和底层转移成本估计三个子问题，多对多移动目标遍历访问问题分解示意图如图2所示。目标的动态性导致了两项难点：其一，复杂度激增，记中、底层求解方法为/>

，其中/>

分别为顶、中层方案，MTTSP穷举计算时间复杂度为/>

；其二，组合优化问题和连续参数优化问题的结合引起了离散参数空间与连续参数空间的耦合，更难寻优。

航天器对多空间目标的遍历访问序列规划问题是航天任务规划领域中典型的MTTSP，如对多卫星的序贯在轨服务任务、对多碎片的序贯交会清除任务、对多小行星序贯飞越巡察任务等。不同于欧式空间问题，其属于轨道流形问题，转移成本计算复杂度

较高，全局优化难度大。

2015年DeepMind首席科学家Oriol Vinyals提出了指针网络(Pointer Networks,PN)，用于解决凸包、Delaunay 三角剖分和TSP等组合优化问题。基于循环神经网络编码器-解码器模型和注意力机制构造离散组合问题的求解器，可有效解决若干经典组合优化问题，其优势是适用于目标数量变化的问题。过去数年间诸多学者研究了指针网络在组合调度领域各类问题的应用变种。然而，尚未出现可有效解决MTTSP的相关研究。

发明内容

基于此，有必要针对上述技术问题，提供一种基于改进指针网络的移动目标遍历访问序列规划方，该方法克服了现有技术中存在的求解效率低、收敛性不足等缺陷。该方法基于循环神经网络(Recurrent Neural Network, RNN)建立求解器模型，包含数据编码器(Encoder)、目标排序器(Target Sequencer)和时间分割器(Time Cutter)，通过蒙特卡洛(Monte Carlo)法在定义域内生成随机样本，基于行动者-评论家(Actor-Critic)算法训练模型，可获得具有较强泛化水平的移动目标遍历访问序列规划智能体。

一种基于改进指针网络的移动目标遍历访问序列规划方法，所述方法包括：

给定移动目标的初始位置属性、运动属性以及运动规律，并提取移动目标特征属性。

构建基于改进指针网络的智能体模型；所述智能体模型包括决策器网络和评价器网络，所述决策器网络包括目标排序器和任务时间分割器；所述目标排序器包括第一编码器和目标排序解码器，所述任务时间分割器包括第二编码器和任务时间分割解码器，所述评价器网络包括第三编码器和期望奖励估计解码器；

根据移动目标特征属性的预设取值域，采用蒙特卡洛法生成待规划目标集。

构建强化学习环境，定义损失函数。

根据所述待规划目标集、所述强化学习环境以及所述损失函数，采用异步多线程学习法对智能体模型进行训练，得到训练好的智能体模型。

将训练好的智能体模型应用于移动目标遍历访问问题进行最优访问序列估计，得到移动目标遍历访问序列规划结果。

上述基于改进指针网络的移动目标遍历访问序列规划方法，所述方法包括：给定移动目标的初始位置属性、运动属性以及运动规律，并提取移动目标特征属性；构建基于改进指针网络的智能体模型；智能体模型包括决策器网络和评价器网络，决策器网络包括目标排序器和任务时间分割器；目标排序器包括第一编码器和目标排序解码器，任务时间分割器包括第二编码器和任务时间分割解码器，评价器网络包括第三编码器和期望奖励估计解码器；根据移动目标特征属性的预设取值域，采用蒙特卡洛法生成待规划目标集；构建强化学习环境，定义损失函数；根据待规划目标集、强化学习环境以及损失函数，采用异步多线程学习法对智能体模型进行训练，得到训练好的智能体模型；将训练好的智能体模型应用于移动目标遍历访问问题进行最优访问序列估计，得到移动目标遍历访问序列规划结果。该方法降低了多对多大规模问题全局优化设计的计算复杂度，可有效提高求解效率和收敛性。

附图说明

图1为旅行商问题示意图，其中（a）为传统旅行商问题，（b）为移动目标旅行商问题示意图；

图2为多对多移动目标遍历访问问题分解示意图；

图3为一个实施例中基于改进指针网络的移动目标遍历访问序列规划方法的流程示意图；

图4为另一个实例中二维直线匀速运动目标集的访问序列规划问题的示意图；

图5为另一个实例中二维圆周匀速运动目标集的访问序列规划问题的示意图；

图6为另一个实例中考虑J ₂摄动的近地多星交会序列规划问题的示意图；

图7为另一个实施例中智能体目标排序器结构示意图；

图8为另一个实施例中智能体时间分割器结构示意图；

图9为另一个实施例中智能体模型的训练算法流程图；

图10为另一个实施例中训练后的智能体模型的应用流程图；

图11为另一个实施例中本发明方法求解实例一的结果图；

图12为另一个实施例中本发明方法求解实例二的结果图；

图13为另一个实施例中智能体与蚁群算法的性能比较。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图3所示，提供了一种基于改进指针网络的移动目标遍历访问序列规划方法，该方法包括以下步骤：

步骤1：给定移动目标的初始位置属性、运动属性以及运动规律，并提取移动目标特征属性。

具体的，给定移动目标的初始位置属性

、运动属性/>

和运动规律/>

。

移动目标特征属性为上述运动规律函数中除时间t以外的自变量，即初始位置属性和运动属性，记为

。

具体实例一：本实例考虑一个二维直线匀速运动目标集的遍历访问序列规划问题，如图4，记其初始位置属性为

，运动属性为/>

，则运动规律为

；

具体实例二：本实例考虑一个二维圆周匀速运动目标集的遍历访问序列规划问题，如图5，记其初始位置属性为

，其中4项属性分别为圆周运动的圆心二维坐标、半径和相对参考方位的初始相位角；记运动属性为/>

，其中2项属性分别为圆周运动半径和角速度；则运动规律为/>

；

具体实例三：本实例考虑一个三维开普勒运动目标集的遍历访问序列规划问题，为使其具有代表性并不失求解难度，将其特殊化为考虑

摄动的近地多星遍历交会问题，如图6。记其初始位置及运动属性为/>

，其中9项属性分别为卫星初始运行轨道的半长轴、偏心率、轨道倾角、升交点赤经、近地点幅角和真近点角，以及

摄动下轨道面升交点赤经漂移率、近地点幅角漂移率、真近点角变化率，如式(1)所示：

（1）

其中，

为地球平均半径，/>

为地心引力常数。则运动规律为

，其中，x、y、z为位置的三个分量，/>

为位置预报函数。

步骤2：构建基于改进指针网络的智能体模型。

智能体模型包括决策器网络和评价器网络，决策器网络包括目标排序器和任务时间分割器；目标排序器包括第一编码器和目标排序解码器，任务时间分割器包括第二编码器和任务时间分割解码器，评价器网络包括第三编码器和期望奖励估计解码器。

具体的，目标排序器用于采用第一编码器对移动目标序列特征属性进行编码，并将得到的编码状态解码为访问目标的索引序列；其中，第一编码器的作用是将不定长目标序列的显式特征属性数据转化为定长的隐式决策背景数据，将移动目标序列特征属性采用卷积嵌入处理，得到目标特征嵌入向量，并将目标特征嵌入向量采用LSTM网络单元进行编码，得到每个目标对应的编码状态输出集合和所有目标的综合编码状态；目标排序解码器用于将编码状态输出解码为访问目标的索引序列，即按照访问顺序输出目标在待规划集中的索引序号。

任务时间分割器用于采用第二编码器对移动目标序列特征属性进行编码，并将得到的编码状态根据访问目标的索引序列采用任务时间分割解码器进行解码，得到各段两个目标间的转移时长；其中，第二编码器用于将移动目标序列特征属性采用卷积嵌入处理，得到目标特征嵌入向量，并将目标特征嵌入向量采用LSTM网络单元进行编码，得到每个目标对应的编码状态输出集合和所有目标的综合编码状态；任务时间分割解码器用于根据访问目标的索引序列将编码状态输出集合解码为各段两目标间转移时长的期望值，将期望值作为均值构建任务时间分割方案采样的联合高斯分布，并采用蒙特卡洛法，得到各段两个目标间的转移时长。

评价器网络用于估计期望指标值，作为决策器网络优化的基线，其中第三编码器网络用于将目标的特征属性编码，期望奖励估计解码器用于将编码状态转化为指标的期望值。

步骤3：根据移动目标特征属性的预设取值域，采用蒙特卡洛法生成待规划目标集。

具体实例一：二维直线匀速运动目标集的遍历访问序列规划问题。

给出移动目标的特征属性及其取值域，约束其两目标间的转移时间。

表1 实例一移动目标特征属性及其取值域

具体实例二：二维圆周匀速运动目标集的遍历访问序列规划问题。

表2 实例二移动目标特征属性及其取值域

具体实例三：考虑

摄动的近地多星遍历交会问题。

表3 实例三移动目标特征属性及其取值域

步骤4：构建强化学习环境，定义损失函数。

具体的，异步的优势行动者评论家算法（Asynchronous Advantage Actor-Critic，简称：A3C架构）是Mnih等人根据异步强化学习（Asynchronous ReinforcementLearning，简称：ARL）的思想，是一种通用的异步并发强化学习框架，A3C框架解决了Actor-Critic难以收敛的问题。A3C的主要思想是通过多个智能体并行学习并整合其所有经验。

步骤5：根据待规划目标集、强化学习环境以及损失函数，采用异步多线程学习法对智能体模型进行训练，得到训练好的智能体模型。

具体的，利用强化学习的方式对智能体模型进行训练，得到训练好的智能体模型。

步骤6：将训练好的智能体模型应用于移动目标遍历访问问题进行最优访问序列估计，得到移动目标遍历访问序列规划结果。

上述基于改进指针网络的移动目标遍历访问序列规划方法中，所述方法包括：基于循环神经网络编码器-解码器模型和注意力机制搭建访问序列规划智能体，其主要由待规划目标集的特征属性编码器、目标排序解码器和任务时间分割解码器组成。首先，提取移动目标特征属性，确定任务时间约束，依此配置智能体结构参数；其次，基于蒙特卡洛法在给定的目标特征属性取值域内随机生成训练样本数据，基于异步优势函数行动者-评论家算法框架构造期望奖励预测器，优化智能体的可训练参数。最后将训练后的智能体应用于多对多移动目标遍历访问任务规划问题中的一对多访问序列快速确定和指标估计，从而优化外层的多对多目标分配方案。该方法降低了多对多大规模问题全局优化设计的计算复杂度，可有效提高求解效率和收敛性。

在其中一个实施例中，第一编码器、第二编码器以及第三编码器的结构相同，参数不同；步骤2包括：构建决策器网络的目标排序器；第一编码器包括一维卷积层和编码单元，编码单元是采用LSTM网络单元构建的；目标排序解码器包括：第一解码单元、第一注意力机制以及softmax激活函数；构建决策器网络的任务时间分割器；任务时间分割解码器包括：第二解码单元、第二注意力机制、多层感知机、ReLu激活函数；第一解码单元和第二解码单元均是采用LSTM网络单元构建的；构建评价器网络的第三编码器和期望奖励估计解码器。

在其中一个实施例中，在第一编码器中：将移动目标序列特征属性输入到一维卷积层中，得到每个目标特征属性相对应的目标特征嵌入向量；目标特征嵌入向量为：

（2）

其中，

为需要规划的第/>

个移动目标序列特征属性，/>

是需要规划的n个目标的特征属性；/>

为一维卷积核权重，是神经网络的可训练参数，维度为卷积核维度×嵌入维度；/>

为与每个移动目标特征属性相对应的目标特征嵌入向量，/>

是所有与目标特征属性相对应的目标特征嵌入向量。

将目标特征嵌入向量输入到编码单元中，将各目标特征嵌入向量按无特定默认顺序依次编码，得到每个移动目标特征属性对应的编码隐层状态输出集合和每次编码的综合状态为：

（3）

其中，

为编码单元的LSTM网络单元的可训练参数集合，/>

和/>

分别为将第/>

个目标编码的隐层状态和第/>

次编码的综合状态。

具体的，对于编码的首个目标可将

和/>

初始化为0向量。编码单元的维度为嵌入维度×LSTM隐层维度。将各目标特征嵌入向量按无特定默认顺序依次编码，得到每个目标对应的编码状态输出集合/>

和所有目标的综合编码状态/>

。

在其中一个实施例中，目标排序解码器的结构如图7所示。在目标排序解码器(Target Sequencer Decoder)中：将目标特征嵌入向量输入到解码单元中，得到短期记忆隐层输出和长期记忆综合状态输出为：

（4）

其中，

表示解码单元的可训练参数集合；/>

和/>

分别第/>

个目标特征属性通过解码单元后的短期记忆隐层输出和长期记忆综合状态输出。其中/>

初始化为0向量，/>

。采用LSTM网络构建的目标排序解码器的维度为嵌入维度×LSTM隐层维度。

将短期记忆隐层输出和对编码隐层状态输出集合采用第一注意力机制进行注意力相关性计算，得到隐层状态的注意力权重为：

（5）

其中，

、/>

和/>

为注意力计算中的可训练参数，是解码器的可训练参数，/>

和

矩阵的维度均为LSTM隐层输出×注意力维度，tanh为双曲正切激活函数，

；/>

为第/>

次解码对第/>

项编码隐层状态的注意力权重。

根据目标状态标识对注意力权重进行修正，然后对修正结果采用softmax函数进行激活，得到目标的概率权重为：

（6）

其中，

为第/>

次选择各目标的概率权重；/>

为第/>

个目标状态标识，取值0或1，若该目标尚未被选择则取1，否则取0，从而使该目标对应权重过softmax激活层后所得被选择概率为0；/>

为第/>

次选择各目标的注意力权重的修正结果；softmax为分类概率分布激活函数/>

，其中，T为softmax函数的模型蒸馏温度超参数，其值越大概率权重矩阵a的各维度的值（即各目标被选择概率权重）的差别越小，算法越具探索性，通常设定其随训练过程逐渐衰减。

根据目标的概率权重采用蒙特卡洛法随机选择目标，得到一个目标的索引，依此法进行多轮次选择，确定目标访问序列的索引。

在其中一个实施例中，任务时间分割解码器(Time Cutter Decoder)的结构如图8所示。在任务时间分割解码器中：

将待规划目标集的目标特征嵌入向量按照目标访问序列的索引的顺序依次输入到第二解码单元中，得到第二短期记忆隐层输出和第二长期记忆综合状态输出为：

（7）

其中，

为第二解码单元中LSTM网络单元的可训练参数集合；/>

和/>

分别第

个目标通过第二解码单元中LSTM网络单元后的第二短期记忆隐层输出和第二长期记忆综合状态输出；/>

为待规划目标集的目标特征嵌入向量。

将第二短期记忆隐层输出和对所有目标的特征属性通过第二编码器编码后得到的短期记忆隐层输出采用注意力机制进行注意力相关性计算，得到隐层状态的注意力权重为：

（8）

其中，

和/>

为注意力计算中的可训练参数，tanh为双曲正切激活函数；

为第/>

次解码对第/>

项编码隐层状态的注意力权重，/>

为第/>

个目标的特征属性通过第二编码器编码后的目标编码的隐层状态。

根据注意力权重和所有目标对应的经第二编码器输出的短期记忆隐层状态，得到解码的隐层输出为；

（9）

其中，

为解码的隐层输出。

将解码的隐层输出输入到多层感知机中，得到两目标间转移时长为：

（10）

（11）

其中，

为由第/>

个目标转移到第/>

个目标的任务时长期望值，/>

为线性整流函数，/>

，其变体/>

，

分别为两目标间转移时长的下限和上限约束；/>

和/>

分别为多层感知机的隐层的权重矩阵和偏置向量，/>

和/>

分别为多层感知机的输出层的权重矩阵和偏置向量，皆为神经网络的可训练参数；/>

为第/>

次解码多层感知机的隐层状态。多层感知机用于将解码隐层输出映射为两目标间转移时长，两目标间转移时长的物理意义：为从第/>

个目标到第/>

个目标的转移时长。MLP的输入维度为LSTM的隐层维度，输出维度为1。

通过n次解码获得遍历访问序列各段两目标间转移任务时长的期望值，以遍历访问序列各段两目标间转移任务时长的期望值为均值、给定超参数

为标准差，构建任务时间分割方案采样的联合高斯分布为：

（12）

其中，

为遍历访问序列各段两目标间转移任务时长向量，/>

为遍历访问序列各段两目标间转移任务时长；/>

为遍历访问序列各段两目标间转移任务时长的均值。/>

值越大算法越具探索性，令其初值为/>

，设定其随训练过程逐渐衰减。

在联合高斯分布的基础上采用Ornstein-Uhlenbeck探索法进行随机采样（即以

的概率在其定义域内随机采样，以/>

的概率基于联合高斯分布采样），采样若超出边界值则直接截断取为边界值，并通过梯度下降法对转移时长进行终端收敛；两个目标间的转移时长为：

（13）

其中，

为第/>

个目标转移到第/>

个目标间的转移时长。

具体的，将编码状态解码为各段两目标间转移时长的期望值，以此作为均值构建任务时间分割方案采样的联合高斯分布。其方差为给定超参数，决定了算法探索性，且随训练进程衰减。通过蒙特卡洛法对任务时间分割方案的联合高斯分布进行随机采样。

值得注意的是，目标排序器和时间分割器各自分别采用一个采用LSTM网络单元构建的编码器，二者结构相同，旨在避免目标排序与时间分割两个模块在梯度反向传播过程中相互干扰。

在其中一个实施例中，在所述评价器网络中：将待规划目标集特征属性输入到第三编码器中，得到各目标编码隐层状态和编码器综合编码状态；将编码器综合编码状态与所有编码隐层状态输入到期望奖励估计解码器中，采用注意力机制进行注意力相关性计算，得到各目标编码隐层状态的注意力权重为：

（14）

其中，

为各目标编码隐层状态的注意力权重，

为评价器网络的可训练参数，/>

为第/>

个目标编码的隐层状态。

将注意力权重和目标编码隐层状态进行编码，得到综合编码注意力隐层输出为：

（15）

其中，

为综合编码注意力隐层输出。

将综合编码注意力隐层输出采用多层感知机映射为遍历访问任务的全局期望奖励；全局期望奖励为：

（16）

（17）

其中，

分别为评价器网络的多层感知机的隐层和输出层的权重矩阵，/>

分别为评价器网络的多层感知机的隐层和输出层的偏置向量；

分别为评价器网络的多层感知机的隐层状态和输出的期望奖励预测值。

在其中一个实施例中，步骤4包括：构建A3C架构的强化学习环境；设置智能体的损失函数；智能体的损失函数包括：决策器网络的损失函数和评价器网络的损失函数，决策器网络的损失函数采用优势函数策略梯度损失函数，评价器网络的损失函数采用均方差损失函数。

决策器网络的损失函数为：

其中，

为输入的待规划目标特征属性数据；/>

为决策器所得方案对应的奖励值，/>

为评论家模型预测的期望奖励；/>

表示目标排序器全部可训练参数，

表示目标排序器第/>

次采样得到的下一个访问目标在本次采样中对应的被选择概率；/>

表示时间分割器全部可训练参数，/>

表示时间分割器采样得到的由第/>

个目标到第/>

个目标转移任务时长对应的高斯分布概率。

评价器网络的损失函数为：

（19）

其中，

表示Critic网络全部可训练参数，/>

为Critic网络预测的期望奖励，/>

为决策器网络所得方案对应的奖励值。

具体的，决策器网络作为强化学习方法中的行动者(Actor)模型，输入给定移动目标集特征属性，得目标访问序列和每段单对单转移任务的开始、结束时间序列，计算最优转移路径总长（或总成本），令Actor的奖励函数为

。

在其中一个实施例中，智能体模型的训练算法流程图如图9所示。步骤5包括：将待规划目标集的移动目标特征属性分别输入到决策器网络和评价器网络中，得到决策器网络所得方案对应的实际奖励值和评价器网络预测的期望奖励；根据实际奖励值、期望奖励以及损失函数，计算决策器网络的损失和评价器网络模型的损失；根据决策器网络的损失采用反向传播计算策略梯度，通过预定的优化器，更新决策器网络的可训练参数；根据评价器网络的损失采用反向传播计算价值梯度，通过预定的优化器，更新评价器网络的可训练参数；通过蒙特卡洛法随机生成待规划目标集，进行下一轮训练，直到达到预设条件（预设条件为损失函数在一定步长内变化小于给定阈值，或达到最大训练步数），得到训练好的智能体模型。

在其中一个实施例中，将待规划目标集的移动目标特征属性分别输入到决策器网络和评价器网络中，得到决策器网络所得方案对应的实际奖励值和评价器网络预测的期望奖励，包括：将待规划目标集的移动目标特征属性输入到决策器网络的目标排序器中，得到访问序列索引；将待规划目标集的移动目标特征属性根据访问序列索引输入到决策器网络的时间分割器中，得到各段两个目标间的转移时长；采用近似方法估计任两目标间转移成本，确定决策器网络所得方案对应的奖励值；将待规划目标集的移动目标特征属性输入到评价器网络的第三编码器中进行编码，并将得到的编码结果输入到期望奖励估计解码器中，得到评价器模型预测的期望奖励。

在其中一个实施例中，步骤6包括：将训练好的智能体应用于多主体对多移动目标遍历访问任务分配问题的全局优化中，进行目标分配方案确定情况下的访问序列快速规划和序贯访问总指标估计，从而辅助外层目标分配方案的全局优化，得到移动目标遍历访问序列规划结果。

本方法是基于循环神经网络编码器-解码器模型和注意力机制搭建访问序列规划智能体，其主要包括待规划目标集的特征属性编码器、目标排序解码器和任务时间分割解码器。首先，提取移动目标特征属性，确定任务时间约束，依此配置智能体结构参数；其次，基于蒙特卡洛法在给定的目标特征属性取值域内随机生成训练样本数据，基于异步优势函数行动者-评论家算法框架构造期望奖励预测器，优化智能体的可训练参数。最后将训练后的智能体应用于多对多移动目标遍历访问任务规划问题中的一对多访问序列快速确定和指标估计，从而优化外层的多对多目标分配方案。

训练后的智能体模型的应用流程如图10所示。

在一个具体的实施例中，在目标访问顺序和时间确定后，将序贯访问问题分解为多个单对单目标转移问题，进而求解使路径最短或转移成本最低的单对单目标转移方案。下面结合实施例分析底层的单对单最优转移问题：

具体实例一、二：

对于二维直线匀速运动目标集的遍历访问序列规划问题和二维圆周匀速运动目标集的遍历访问序列规划问题，规定其由上一目标转移至下一目标的速度不限，仅考虑转移路径长度，记其由目标

出发的时刻为/>

，到达目标/>

的时刻为/>

，任务时间确定情况下的最短路径长度为/>

，其中/>

，/>

为移动目标的状态预报方法。

具体实例三：

对于考虑

摄动的近地空间单对单交会问题，记任务时间确定情况下的两目标间最优转移成本为/>

，其中/>

为固定任务时间计算最优转移速度增量的广义函数。

若精确计算，效率通常较低。由于旨在顶层全局优化，可使用快速估计转移成本的近似算法代替精确优化算法。文献(doi.org/10.2514/1.G005220)提出了一种可有效快速估计

摄动下单对单交会最优转移速度增量的半解析求法，可应用于本实施例。

需要特别说明的是，任意能以多项式时间复杂度快速估计两目标间最优转移成本的算法与其对应的多目标遍历访问序列规划问题都适用于本方法。

分别针对每一段单对单转移任务求解转移成本，最后计算总成本

为：

(20)

在一个具体的实施例中，利用步骤4所述算法训练智能体，训练设备为230内核3.40GHz服务器，三个实例中智能体的超参数配置如表4所示。采用本发明方法求解实例一、实例二的结果如图11、图12 所示。对于实施例三，随机生成样本可能出现两目标间转移无法同时满足时间约束和机动约束的情况，此时重新生成样本，直到该样本与其他半数以上目标存在可转移关系。

表4智能体超参数配置

将智能体所得解与蚁群算法优化解进行比较，进行10000次独立测试，测试设备为内存16GB速度3.70GHz的台式电脑，结果统计如表5所示。其中，近最优序列指与最优序列差异目标数小于3的访问序列；若所得序列与最优序列差异数目超过半数，认为Actor故障。蚁群算法的参数配置如表6所示。

表5智能体性能验证

表6蚁群算法参数

/>

如图10为智能体在多主体对多目标的遍历任务分配与访问序列规划问题中的应用流程。通过实例三测试智能体处理多航天器对大规模目标交会任务规划问题的性能。将航天器数量固定为10，分工清除123个空间碎片，不同航天器可在相同时段内同步执行各自任务，碎片星历见“The GTOC portal”(https://sophia.estec.esa.int/gtoc_portal/?page_id=814. Problem data: Debris orbits)。建立“碎片→航天器”目标分配信息素矩阵，矩阵每一行元素为单个碎片被分配至各航天器的概率权重。利用蚁群算法信息素更新策略迭代目标分配矩阵，优化过程中通过该矩阵随机采样生成碎片到航天器的分配方案，此后通过智能体的Actor生成交会序列并估计实际指标J。另外，基于蚁群算法构建“碎片→碎片”信息素矩阵，与序列规划智能体进行比较；使用“碎片→碎片”信息素矩阵生成某航天器的交会序列时，将不属于该航天器的目标信息素浓度暂时置为0。两种方法的优化收敛过程如图13所示。蚁群算法概率权重矩阵迭代的超参数配置同表6。使用序列规划智能体和传统优化方法所得解的指标分别为22657.13m/s和23336.82m/s，智能体所得解相对优出3.3%。

本发明利用人工神经网络构造移动目标遍历访问序列快速求解器，能在很短的时间内以非常小的计算代价快速求得最优访问序列和相应指标的近似值，在有效获得最优解的同时极大程度降低问题复杂性，特别适用于多主体面向大规模移动目标备选集的目标选择与访问序列规划问题，如多航天器对大规模碎片云中多碎片的选择与连续清除任务、多服务航天器对多用户航天器的选择与序贯在轨服务任务等。

应该理解的是，虽然图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于改进指针网络的移动目标遍历访问序列规划方法，其特征在于，所述方法包括：

给定被遍历访问的多个移动目标的初始位置属性、运动属性以及运动规律，并提取移动目标特征属性；所述移动目标为卫星、小行星或空间碎片；所述运动属性包括卫星初始运行轨道的半长轴、偏心率、轨道倾角、升交点赤经、近地点幅角和真近点角，以及摄动下轨道面升交点赤经漂移率、近地点幅角漂移率、真近点角变化率；

构建基于改进指针网络的智能体模型；所述智能体模型包括决策器网络和评价器网络，所述决策器网络包括目标排序器和任务时间分割器；所述目标排序器包括第一编码器和目标排序解码器，所述任务时间分割器包括第二编码器和任务时间分割解码器，所述评价器网络包括第三编码器和期望奖励估计解码器；所述目标排序器用于采用第一编码器对移动目标特征属性进行编码，并将得到的编码状态解码为访问目标的索引序列；其中，所述第一编码器用于将不定长移动目标序列的显式特征属性数据转化为定长的隐式决策背景数据，将移动目标特征属性采用卷积嵌入处理，得到目标特征嵌入向量，并将目标特征嵌入向量采用LSTM网络单元进行编码，得到每个移动目标对应的编码状态输出集合和所有移动目标的综合编码状态；所述目标排序解码器用于将编码状态输出解码为访问目标的索引序列；所述任务时间分割器用于采用所述第二编码器对移动目标特征属性进行编码，并将得到的编码状态根据访问目标的索引序列采用任务时间分割解码器进行解码，得到各段两个目标间的转移时长；其中，所述第二编码器用于将移动目标特征属性采用卷积嵌入处理，得到目标特征嵌入向量，并将目标特征嵌入向量采用LSTM网络单元进行编码，得到每个目标对应的编码状态输出集合和所有目标的综合编码状态；任务时间分割解码器用于根据访问目标的索引序列将编码状态输出集合解码为各段两目标间转移时长的期望值，将期望值作为均值构建任务时间分割方案采样的联合高斯分布，并采用蒙特卡洛法，得到各段两个目标间的转移时长；所述评价器网络用于估计期望指标值，作为决策器网络优化的基线，其中第三编码器网络用于将目标的特征属性进行编码，期望奖励估计解码器用于将编码状态转化为指标的期望值；

根据移动目标特征属性的预设取值域，采用蒙特卡洛法生成待规划目标集；

构建强化学习环境，定义损失函数；

根据所述待规划目标集、所述强化学习环境以及所述损失函数，采用异步多线程学习法对智能体模型进行训练，得到训练好的智能体模型；

将训练好的智能体模型应用于航天器对多个移动目标的遍历访问序列规划问题进行最优访问序列估计，得到航天器对多个移动目标的遍历访问序列规划结果。

2.根据权利要求1所述的方法，其特征在于，所述第一编码器、所述第二编码器以及所述第三编码器的结构相同，参数不同；

构建基于改进指针网络的智能体模型，包括：

构建所述决策器网络的所述目标排序器；所述第一编码器包括一维卷积层和编码单元，所述编码单元是采用LSTM网络单元构建的；所述目标排序解码器包括：第一解码单元、第一注意力机制以及softmax激活函数；

构建所述决策器网络的所述任务时间分割器；所述任务时间分割解码器包括：第二解码单元、第二注意力机制、多层感知机、ReLu激活函数；所述第一解码单元和所述第二解码单元均是采用LSTM网络单元构建的；

构建所述评价器网络的所述第三编码器和所述期望奖励估计解码器。

3.根据权利要求2所述的方法，其特征在于，在所述第一编码器中：

将移动目标特征属性输入到所述一维卷积层中，得到每个目标特征属性相对应的目标特征嵌入向量；所述目标特征嵌入向量为：

，

其中，

为需要规划的第i个移动目标特征属性；/>

为一维卷积核权重；/>

为与每个移动目标特征属性相对应的目标特征嵌入向量；

将所述目标特征嵌入向量输入到所述编码单元中，将各目标特征嵌入向量按无特定默认顺序依次编码，得到每个移动目标特征属性对应的编码隐层状态输出集合和每次编码的综合状态为：

，

其中，

为编码单元的LSTM网络单元的可训练参数集合，/>

和/>

分别为将第i个目标编码的隐层状态和第i次编码的综合状态。

4.根据权利要求3所述的方法，其特征在于，在所述目标排序解码器中：

将目标特征嵌入向量输入到所述解码单元中，得到短期记忆隐层输出和长期记忆综合状态输出为：

，

其中，

表示解码单元的可训练参数集合；/>

和/>

分别第j个目标特征属性通过解码单元后的短期记忆隐层输出和长期记忆综合状态输出；

将所述短期记忆隐层输出和对所述编码隐层状态输出集合采用所述第一注意力机制进行注意力相关性计算，得到隐层状态的注意力权重为：

，

其中，v、W ₁和W ₂为注意力计算中的可训练参数，tanh为双曲正切激活函数；

u _j,i为第j次解码对第i项编码隐层状态的注意力权重；

根据目标状态标识对所述注意力权重进行修正，然后对修正结果采用softmax函数进行激活，得到目标的概率权重为：

，

其中，

为第j次选择各目标的概率权重；/>

为第i个目标状态标识，/>

为第j次选择各目标的注意力权重的修正结果；

根据所述目标的概率权重采用蒙特卡洛法随机选择目标，得到一个目标的索引，依此法进行多轮次选择，确定目标访问序列的索引。

5.根据权利要求4所述的方法，其特征在于，在所述任务时间分割解码器中：

将待规划目标集的目标特征嵌入向量按照所述目标访问序列的索引的顺序依次输入到第二解码单元中，得到第二短期记忆隐层输出和第二长期记忆综合状态输出为：

，

其中，

为第二解码单元中LSTM网络单元的可训练参数集合；/>

和/>

分别第j个目标通过第二解码单元中LSTM网络单元后的第二短期记忆隐层输出和第二长期记忆综合状态输出；/>

为待规划目标集的目标特征嵌入向量；

将所述第二短期记忆隐层输出和对所有目标的特征属性通过第二编码器编码后得到的短期记忆隐层输出采用注意力机制进行注意力相关性计算，得到隐层状态的注意力权重为：

，

其中，

和/>

为注意力计算中的可训练参数，tanh为双曲正切激活函数；/>

为第j次解码对第i项编码隐层状态的注意力权重，/>

为第i个目标的特征属性通过第二编码器编码后的目标编码的隐层状态；

根据所述注意力权重和所有目标对应的经第二编码器输出的短期记忆隐层状态，得到解码的隐层输出为；

，

其中，

为解码的隐层输出；

将所述解码的隐层输出输入到所述多层感知机中，得到两目标间转移时长为：

，

，

其中，

为由第j个目标转移到第j+1个目标的任务时长期望值，/>

为线性整流函数；/>

和/>

分别为多层感知机的隐层的权重矩阵和偏置向量，/>

和/>

为第j次解码多层感知机的隐层状态；/>

分别为两目标间转移时长的下限和上限约束；

为标准差，构建任务时间分割方案采样的联合高斯分布为：

，

其中，

为遍历访问序列各段两目标间转移任务时长向量，/>

为遍历访问序列各段两目标间转移任务时长；/>

为遍历访问序列各段两目标间转移任务时长的均值；

在所述联合高斯分布的基础上采用Ornstein-Uhlenbeck探索法进行随机采样，采样若超出边界值则直接截断取为边界值，并通过梯度下降法对转移时长进行终端收敛；两个目标间的转移时长为：

，

其中，

为第j个目标转移到第j+1个目标间的转移时长。

6.根据权利要求2所述的方法，其特征在于，在所述评价器网络中：

将待规划目标集特征属性输入到第三编码器中，得到各目标编码隐层状态和编码器综合编码状态；

将所述编码器综合编码状态与所有所述编码隐层状态输入到期望奖励估计解码器中，采用注意力机制进行注意力相关性计算，得到各目标编码隐层状态的注意力权重为：

，

其中，

为各目标编码隐层状态的注意力权重，

为评价器网络的可训练参数，/>

为第i个目标编码的隐层状态；

将所述注意力权重和所述目标编码隐层状态进行编码，得到综合编码注意力隐层输出为：

，

其中，

为综合编码注意力隐层输出；

将所述综合编码注意力隐层输出采用多层感知机映射为遍历访问任务的全局期望奖励；所述全局期望奖励为：

，

，

其中，

7.根据权利要求1所述的方法，其特征在于，构建强化学习环境，定义损失函数，包括：

构建A3C架构的强化学习环境；

设置智能体的损失函数；所述智能体的损失函数包括：决策器网络的损失函数和评价器网络的损失函数，所述决策器网络的损失函数采用优势函数策略梯度损失函数，所述评价器网络的损失函数采用均方差损失函数。

8.根据权利要求1所述的方法，其特征在于，根据所述待规划目标集、所述强化学习环境以及所述损失函数，采用异步多线程学习法对智能体模型进行训练，得到训练好的智能体模型，包括：

将所述待规划目标集的移动目标特征属性分别输入到所述决策器网络和所述评价器网络中，得到决策器网络所得方案对应的实际奖励值和评价器网络预测的期望奖励；

根据所述实际奖励值、所述期望奖励以及损失函数，计算决策器网络的损失和评价器网络模型的损失；

根据所述决策器网络的损失采用反向传播计算策略梯度，通过预定的优化器，更新决策器网络的可训练参数；

根据评价器网络的损失采用反向传播计算价值梯度，通过预定的优化器，更新评价器网络的可训练参数；

通过蒙特卡洛法随机生成待规划目标集，进行下一轮训练，直到达到预设条件，得到训练好的智能体模型。

9.根据权利要求8所述的方法，其特征在于，将所述待规划目标集的移动目标特征属性分别输入到所述决策器网络和所述评价器网络中，得到决策器网络所得方案对应的实际奖励值和评价器网络预测的期望奖励，包括：

将所述待规划目标集的移动目标特征属性输入到所述决策器网络的所述目标排序器中，得到访问序列索引；

将所述待规划目标集的移动目标特征属性根据所述访问序列索引输入到所述决策器网络的所述时间分割器中，得到各段两个目标间的转移时长；

采用近似方法估计任两目标间转移成本，确定所述决策器网络所得方案对应的奖励值；

将所述待规划目标集的移动目标特征属性输入到所述评价器网络的第三编码器中进行编码，并将得到的编码结果输入到期望奖励估计解码器中，得到评价器模型预测的期望奖励。

10.根据权利要求1所述的方法，其特征在于，将训练好的智能体应用于航天器对多个移动目标的遍历访问问题进行最优访问序列估计，得到航天器对个移动目标遍历访问序列规划结果，包括：

将训练好的智能体应用于航天器对个移动目标的遍历访问任务分配问题的全局优化中，进行目标分配方案确定情况下的访问序列快速规划和序贯访问总指标估计，从而辅助外层目标分配方案的全局优化，得到航天器对多个移动目标遍历访问序列规划结果。