CN116090688B - 基于改进指针网络的移动目标遍历访问序列规划方法 - Google Patents
基于改进指针网络的移动目标遍历访问序列规划方法 Download PDFInfo
- Publication number
- CN116090688B CN116090688B CN202310371070.7A CN202310371070A CN116090688B CN 116090688 B CN116090688 B CN 116090688B CN 202310371070 A CN202310371070 A CN 202310371070A CN 116090688 B CN116090688 B CN 116090688B
- Authority
- CN
- China
- Prior art keywords
- target
- network
- hidden layer
- targets
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000006870 function Effects 0.000 claims abstract description 52
- 238000005457 optimization Methods 0.000 claims abstract description 22
- 230000002787 reinforcement Effects 0.000 claims abstract description 18
- 238000000342 Monte Carlo simulation Methods 0.000 claims abstract description 14
- 238000012546 transfer Methods 0.000 claims description 48
- 239000003795 chemical substances by application Substances 0.000 claims description 47
- 239000013598 vector Substances 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000006403 short-term memory Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000007787 long-term memory Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 239000002131 composite material Substances 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 230000001174 ascending effect Effects 0.000 claims 2
- 230000015654 memory Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 3
- 239000012634 fragment Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 239000003016 pheromone Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013277 forecasting method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种基于改进指针网络的移动目标遍历访问序列规划方法,该方法包括:提取移动目标特征属性;构建基于改进指针网络的智能体模型;模型包括决策器网络和评价器网络,决策器网络包括目标排序器和任务时间分割器;评价器网络包括编码器和期望奖励估计解码器;根据移动目标特征属性的预设取值域,采用蒙特卡洛法生成待规划目标集;根据待规划目标集、强化学习环境和损失函数,采用异步多线程学习法,得到训练好的智能体模型;将训练好的智能体模型应用于移动目标遍历访问问题进行最优访问序列估计,得到移动目标遍历访问序列规划结果。该方法降低了多对多大规模问题全局优化设计的计算复杂度,可有效提高求解效率和收敛性。
Description
技术领域
本申请涉及组合优化技术领域,特别是涉及一种基于改进指针网络的移动目标遍历访问序列规划方法。
背景技术
旅行商问题(Traveling Salesman Problem, TSP)作为传统遍历访问序列规划基准问题,已被广泛研究。这类问题要求规划者寻找一条遍访n个给定城市的最短路径,其中城市坐标固定,任意两城市间距固定,其穷举计算时间复杂度为城市数量的阶乘。移动目标旅行商问题(Moving Target Traveling Salesman Problem, MTTSP)是传统TSP的一种变体,其增加了目标的动态性,即目标以一种可预报的规律运动,目标的瞬时坐标和任意两目标间距(或转移成本)是时间的函数,旅行商问题示意图如图1所示,其中(a)为传统旅行商问题,(b)为移动目标旅行商问题示意图。该问题通常分解为顶层访问顺序、中层时间分割和底层转移成本估计三个子问题,多对多移动目标遍历访问问题分解示意图如图2所示。目标的动态性导致了两项难点:其一,复杂度激增,记中、底层求解方法为/>,其中/>分别为顶、中层方案,MTTSP穷举计算时间复杂度为/>;其二,组合优化问题和连续参数优化问题的结合引起了离散参数空间与连续参数空间的耦合,更难寻优。
航天器对多空间目标的遍历访问序列规划问题是航天任务规划领域中典型的MTTSP,如对多卫星的序贯在轨服务任务、对多碎片的序贯交会清除任务、对多小行星序贯飞越巡察任务等。不同于欧式空间问题,其属于轨道流形问题,转移成本计算复杂度较高,全局优化难度大。
2015年DeepMind首席科学家Oriol Vinyals提出了指针网络(Pointer Networks,PN),用于解决凸包、Delaunay 三角剖分和TSP等组合优化问题。基于循环神经网络编码器-解码器模型和注意力机制构造离散组合问题的求解器,可有效解决若干经典组合优化问题,其优势是适用于目标数量变化的问题。过去数年间诸多学者研究了指针网络在组合调度领域各类问题的应用变种。然而,尚未出现可有效解决MTTSP的相关研究。
发明内容
基于此,有必要针对上述技术问题,提供一种基于改进指针网络的移动目标遍历访问序列规划方,该方法克服了现有技术中存在的求解效率低、收敛性不足等缺陷。该方法基于循环神经网络(Recurrent Neural Network, RNN)建立求解器模型,包含数据编码器(Encoder)、目标排序器(Target Sequencer)和时间分割器(Time Cutter),通过蒙特卡洛(Monte Carlo)法在定义域内生成随机样本,基于行动者-评论家(Actor-Critic)算法训练模型,可获得具有较强泛化水平的移动目标遍历访问序列规划智能体。
一种基于改进指针网络的移动目标遍历访问序列规划方法,所述方法包括:
给定移动目标的初始位置属性、运动属性以及运动规律,并提取移动目标特征属性。
构建基于改进指针网络的智能体模型;所述智能体模型包括决策器网络和评价器网络,所述决策器网络包括目标排序器和任务时间分割器;所述目标排序器包括第一编码器和目标排序解码器,所述任务时间分割器包括第二编码器和任务时间分割解码器,所述评价器网络包括第三编码器和期望奖励估计解码器;
根据移动目标特征属性的预设取值域,采用蒙特卡洛法生成待规划目标集。
构建强化学习环境,定义损失函数。
根据所述待规划目标集、所述强化学习环境以及所述损失函数,采用异步多线程学习法对智能体模型进行训练,得到训练好的智能体模型。
将训练好的智能体模型应用于移动目标遍历访问问题进行最优访问序列估计,得到移动目标遍历访问序列规划结果。
上述基于改进指针网络的移动目标遍历访问序列规划方法,所述方法包括:给定移动目标的初始位置属性、运动属性以及运动规律,并提取移动目标特征属性;构建基于改进指针网络的智能体模型;智能体模型包括决策器网络和评价器网络,决策器网络包括目标排序器和任务时间分割器;目标排序器包括第一编码器和目标排序解码器,任务时间分割器包括第二编码器和任务时间分割解码器,评价器网络包括第三编码器和期望奖励估计解码器;根据移动目标特征属性的预设取值域,采用蒙特卡洛法生成待规划目标集;构建强化学习环境,定义损失函数;根据待规划目标集、强化学习环境以及损失函数,采用异步多线程学习法对智能体模型进行训练,得到训练好的智能体模型;将训练好的智能体模型应用于移动目标遍历访问问题进行最优访问序列估计,得到移动目标遍历访问序列规划结果。该方法降低了多对多大规模问题全局优化设计的计算复杂度,可有效提高求解效率和收敛性。
附图说明
图1为旅行商问题示意图,其中(a)为传统旅行商问题,(b)为移动目标旅行商问题示意图;
图2为多对多移动目标遍历访问问题分解示意图;
图3为一个实施例中基于改进指针网络的移动目标遍历访问序列规划方法的流程示意图;
图4为另一个实例中二维直线匀速运动目标集的访问序列规划问题的示意图;
图5为另一个实例中二维圆周匀速运动目标集的访问序列规划问题的示意图;
图6为另一个实例中考虑J 2摄动的近地多星交会序列规划问题的示意图;
图7为另一个实施例中智能体目标排序器结构示意图;
图8为另一个实施例中智能体时间分割器结构示意图;
图9为另一个实施例中智能体模型的训练算法流程图;
图10为另一个实施例中训练后的智能体模型的应用流程图;
图11为另一个实施例中本发明方法求解实例一的结果图;
图12为另一个实施例中本发明方法求解实例二的结果图;
图13为另一个实施例中智能体与蚁群算法的性能比较。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图3所示,提供了一种基于改进指针网络的移动目标遍历访问序列规划方法,该方法包括以下步骤:
步骤1:给定移动目标的初始位置属性、运动属性以及运动规律,并提取移动目标特征属性。
具体实例二:本实例考虑一个二维圆周匀速运动目标集的遍历访问序列规划问题,如图5,记其初始位置属性为,其中4项属性分别为圆周运动的圆心二维坐标、半径和相对参考方位的初始相位角;记运动属性为/>,其中2项属性分别为圆周运动半径和角速度;则运动规律为/>;
具体实例三:本实例考虑一个三维开普勒运动目标集的遍历访问序列规划问题,为使其具有代表性并不失求解难度,将其特殊化为考虑摄动的近地多星遍历交会问题,如图6。记其初始位置及运动属性为/>,其中9项属性分别为卫星初始运行轨道的半长轴、偏心率、轨道倾角、升交点赤经、近地点幅角和真近点角,以及摄动下轨道面升交点赤经漂移率、近地点幅角漂移率、真近点角变化率,如式(1)所示:
步骤2:构建基于改进指针网络的智能体模型。
智能体模型包括决策器网络和评价器网络,决策器网络包括目标排序器和任务时间分割器;目标排序器包括第一编码器和目标排序解码器,任务时间分割器包括第二编码器和任务时间分割解码器,评价器网络包括第三编码器和期望奖励估计解码器。
具体的,目标排序器用于采用第一编码器对移动目标序列特征属性进行编码,并将得到的编码状态解码为访问目标的索引序列;其中,第一编码器的作用是将不定长目标序列的显式特征属性数据转化为定长的隐式决策背景数据,将移动目标序列特征属性采用卷积嵌入处理,得到目标特征嵌入向量,并将目标特征嵌入向量采用LSTM网络单元进行编码,得到每个目标对应的编码状态输出集合和所有目标的综合编码状态;目标排序解码器用于将编码状态输出解码为访问目标的索引序列,即按照访问顺序输出目标在待规划集中的索引序号。
任务时间分割器用于采用第二编码器对移动目标序列特征属性进行编码,并将得到的编码状态根据访问目标的索引序列采用任务时间分割解码器进行解码,得到各段两个目标间的转移时长;其中,第二编码器用于将移动目标序列特征属性采用卷积嵌入处理,得到目标特征嵌入向量,并将目标特征嵌入向量采用LSTM网络单元进行编码,得到每个目标对应的编码状态输出集合和所有目标的综合编码状态;任务时间分割解码器用于根据访问目标的索引序列将编码状态输出集合解码为各段两目标间转移时长的期望值,将期望值作为均值构建任务时间分割方案采样的联合高斯分布,并采用蒙特卡洛法,得到各段两个目标间的转移时长。
评价器网络用于估计期望指标值,作为决策器网络优化的基线,其中第三编码器网络用于将目标的特征属性编码,期望奖励估计解码器用于将编码状态转化为指标的期望值。
步骤3:根据移动目标特征属性的预设取值域,采用蒙特卡洛法生成待规划目标集。
具体实例一:二维直线匀速运动目标集的遍历访问序列规划问题。
给出移动目标的特征属性及其取值域,约束其两目标间的转移时间。
表1 实例一移动目标特征属性及其取值域
具体实例二:二维圆周匀速运动目标集的遍历访问序列规划问题。
给出移动目标的特征属性及其取值域,约束其两目标间的转移时间。
表2 实例二移动目标特征属性及其取值域
给出移动目标的特征属性及其取值域,约束其两目标间的转移时间。
表3 实例三移动目标特征属性及其取值域
步骤4:构建强化学习环境,定义损失函数。
具体的,异步的优势行动者评论家算法(Asynchronous Advantage Actor-Critic,简称:A3C架构)是Mnih等人根据异步强化学习(Asynchronous ReinforcementLearning,简称:ARL)的思想,是一种通用的异步并发强化学习框架,A3C框架解决了Actor-Critic难以收敛的问题。A3C的主要思想是通过多个智能体并行学习并整合其所有经验。
步骤5:根据待规划目标集、强化学习环境以及损失函数,采用异步多线程学习法对智能体模型进行训练,得到训练好的智能体模型。
具体的,利用强化学习的方式对智能体模型进行训练,得到训练好的智能体模型。
步骤6:将训练好的智能体模型应用于移动目标遍历访问问题进行最优访问序列估计,得到移动目标遍历访问序列规划结果。
上述基于改进指针网络的移动目标遍历访问序列规划方法中,所述方法包括:基于循环神经网络编码器-解码器模型和注意力机制搭建访问序列规划智能体,其主要由待规划目标集的特征属性编码器、目标排序解码器和任务时间分割解码器组成。首先,提取移动目标特征属性,确定任务时间约束,依此配置智能体结构参数;其次,基于蒙特卡洛法在给定的目标特征属性取值域内随机生成训练样本数据,基于异步优势函数行动者-评论家算法框架构造期望奖励预测器,优化智能体的可训练参数。最后将训练后的智能体应用于多对多移动目标遍历访问任务规划问题中的一对多访问序列快速确定和指标估计,从而优化外层的多对多目标分配方案。该方法降低了多对多大规模问题全局优化设计的计算复杂度,可有效提高求解效率和收敛性。
在其中一个实施例中,第一编码器、第二编码器以及第三编码器的结构相同,参数不同;步骤2包括:构建决策器网络的目标排序器;第一编码器包括一维卷积层和编码单元,编码单元是采用LSTM网络单元构建的;目标排序解码器包括:第一解码单元、第一注意力机制以及softmax激活函数;构建决策器网络的任务时间分割器;任务时间分割解码器包括:第二解码单元、第二注意力机制、多层感知机、ReLu激活函数;第一解码单元和第二解码单元均是采用LSTM网络单元构建的;构建评价器网络的第三编码器和期望奖励估计解码器。
在其中一个实施例中,在第一编码器中:将移动目标序列特征属性输入到一维卷积层中,得到每个目标特征属性相对应的目标特征嵌入向量;目标特征嵌入向量为:
其中,为需要规划的第/>个移动目标序列特征属性,/>是需要规划的n个目标的特征属性;/>为一维卷积核权重,是神经网络的可训练参数,维度为卷积核维度×嵌入维度;/>为与每个移动目标特征属性相对应的目标特征嵌入向量,/>是所有与目标特征属性相对应的目标特征嵌入向量。
将目标特征嵌入向量输入到编码单元中,将各目标特征嵌入向量按无特定默认顺序依次编码,得到每个移动目标特征属性对应的编码隐层状态输出集合和每次编码的综合状态为:
具体的,对于编码的首个目标可将和/>初始化为0向量。编码单元的维度为嵌入维度×LSTM隐层维度。将各目标特征嵌入向量按无特定默认顺序依次编码,得到每个目标对应的编码状态输出集合/>和所有目标的综合编码状态/>。
在其中一个实施例中,目标排序解码器的结构如图7所示。在目标排序解码器(Target Sequencer Decoder)中:将目标特征嵌入向量输入到解码单元中,得到短期记忆隐层输出和长期记忆综合状态输出为:
其中,表示解码单元的可训练参数集合;/>和/>分别第/>个目标特征属性通过解码单元后的短期记忆隐层输出和长期记忆综合状态输出。其中/>初始化为0向量,/>。采用LSTM网络构建的目标排序解码器的维度为嵌入维度×LSTM隐层维度。
将短期记忆隐层输出和对编码隐层状态输出集合采用第一注意力机制进行注意力相关性计算,得到隐层状态的注意力权重为:
其中,、/>和/>为注意力计算中的可训练参数,是解码器的可训练参数,/>和矩阵的维度均为LSTM隐层输出×注意力维度,tanh为双曲正切激活函数,;/>为第/>次解码对第/>项编码隐层状态的注意力权重。
根据目标状态标识对注意力权重进行修正,然后对修正结果采用softmax函数进行激活,得到目标的概率权重为:
其中,为第/>次选择各目标的概率权重;/>为第/>个目标状态标识,取值0或1,若该目标尚未被选择则取1,否则取0,从而使该目标对应权重过softmax激活层后所得被选择概率为0;/>为第/>次选择各目标的注意力权重的修正结果;softmax为分类概率分布激活函数/>,其中,T为softmax函数的模型蒸馏温度超参数,其值越大概率权重矩阵a的各维度的值(即各目标被选择概率权重)的差别越小,算法越具探索性,通常设定其随训练过程逐渐衰减。
根据目标的概率权重采用蒙特卡洛法随机选择目标,得到一个目标的索引,依此法进行多轮次选择,确定目标访问序列的索引。
在其中一个实施例中,任务时间分割解码器(Time Cutter Decoder)的结构如图8所示。在任务时间分割解码器中:
将待规划目标集的目标特征嵌入向量按照目标访问序列的索引的顺序依次输入到第二解码单元中,得到第二短期记忆隐层输出和第二长期记忆综合状态输出为:
其中,为第二解码单元中LSTM网络单元的可训练参数集合;/>和/>分别第个目标通过第二解码单元中LSTM网络单元后的第二短期记忆隐层输出和第二长期记忆综合状态输出;/>为待规划目标集的目标特征嵌入向量。
将第二短期记忆隐层输出和对所有目标的特征属性通过第二编码器编码后得到的短期记忆隐层输出采用注意力机制进行注意力相关性计算,得到隐层状态的注意力权重为:
根据注意力权重和所有目标对应的经第二编码器输出的短期记忆隐层状态,得到解码的隐层输出为;
将解码的隐层输出输入到多层感知机中,得到两目标间转移时长为:
其中,为由第/>个目标转移到第/>个目标的任务时长期望值,/>为线性整流函数,/>,其变体/>,分别为两目标间转移时长的下限和上限约束;/>和/>分别为多层感知机的隐层的权重矩阵和偏置向量,/>和/>分别为多层感知机的输出层的权重矩阵和偏置向量,皆为神经网络的可训练参数;/>为第/>次解码多层感知机的隐层状态。多层感知机用于将解码隐层输出映射为两目标间转移时长,两目标间转移时长的物理意义:为从第/>个目标到第/>个目标的转移时长。MLP的输入维度为LSTM的隐层维度,输出维度为1。
其中,为遍历访问序列各段两目标间转移任务时长向量,/>为遍历访问序列各段两目标间转移任务时长;/>为遍历访问序列各段两目标间转移任务时长的均值。/>值越大算法越具探索性,令其初值为/>,设定其随训练过程逐渐衰减。
在联合高斯分布的基础上采用Ornstein-Uhlenbeck探索法进行随机采样(即以的概率在其定义域内随机采样,以/>的概率基于联合高斯分布采样),采样若超出边界值则直接截断取为边界值,并通过梯度下降法对转移时长进行终端收敛;两个目标间的转移时长为:
具体的,将编码状态解码为各段两目标间转移时长的期望值,以此作为均值构建任务时间分割方案采样的联合高斯分布。其方差为给定超参数,决定了算法探索性,且随训练进程衰减。通过蒙特卡洛法对任务时间分割方案的联合高斯分布进行随机采样。
值得注意的是,目标排序器和时间分割器各自分别采用一个采用LSTM网络单元构建的编码器,二者结构相同,旨在避免目标排序与时间分割两个模块在梯度反向传播过程中相互干扰。
在其中一个实施例中, 在所述评价器网络中:将待规划目标集特征属性输入到第三编码器中,得到各目标编码隐层状态和编码器综合编码状态;将编码器综合编码状态与所有编码隐层状态输入到期望奖励估计解码器中,采用注意力机制进行注意力相关性计算,得到各目标编码隐层状态的注意力权重为:
将注意力权重和目标编码隐层状态进行编码,得到综合编码注意力隐层输出为:
将综合编码注意力隐层输出采用多层感知机映射为遍历访问任务的全局期望奖励;全局期望奖励为:
在其中一个实施例中,步骤4包括:构建A3C架构的强化学习环境;设置智能体的损失函数;智能体的损失函数包括:决策器网络的损失函数和评价器网络的损失函数,决策器网络的损失函数采用优势函数策略梯度损失函数,评价器网络的损失函数采用均方差损失函数。
决策器网络的损失函数为:
其中,为输入的待规划目标特征属性数据;/>为决策器所得方案对应的奖励值,/>为评论家模型预测的期望奖励;/>表示目标排序器全部可训练参数,表示目标排序器第/>次采样得到的下一个访问目标在本次采样中对应的被选择概率;/>表示时间分割器全部可训练参数,/>表示时间分割器采样得到的由第/>个目标到第/>个目标转移任务时长对应的高斯分布概率。
评价器网络的损失函数为:
具体的,决策器网络作为强化学习方法中的行动者(Actor)模型,输入给定移动目标集特征属性,得目标访问序列和每段单对单转移任务的开始、结束时间序列,计算最优转移路径总长(或总成本),令Actor的奖励函数为。
在其中一个实施例中,智能体模型的训练算法流程图如图9所示。步骤5包括:将待规划目标集的移动目标特征属性分别输入到决策器网络和评价器网络中,得到决策器网络所得方案对应的实际奖励值和评价器网络预测的期望奖励;根据实际奖励值、期望奖励以及损失函数,计算决策器网络的损失和评价器网络模型的损失;根据决策器网络的损失采用反向传播计算策略梯度,通过预定的优化器,更新决策器网络的可训练参数;根据评价器网络的损失采用反向传播计算价值梯度,通过预定的优化器,更新评价器网络的可训练参数;通过蒙特卡洛法随机生成待规划目标集,进行下一轮训练,直到达到预设条件(预设条件为损失函数在一定步长内变化小于给定阈值,或达到最大训练步数),得到训练好的智能体模型。
在其中一个实施例中,将待规划目标集的移动目标特征属性分别输入到决策器网络和评价器网络中,得到决策器网络所得方案对应的实际奖励值和评价器网络预测的期望奖励,包括:将待规划目标集的移动目标特征属性输入到决策器网络的目标排序器中,得到访问序列索引;将待规划目标集的移动目标特征属性根据访问序列索引输入到决策器网络的时间分割器中,得到各段两个目标间的转移时长;采用近似方法估计任两目标间转移成本,确定决策器网络所得方案对应的奖励值;将待规划目标集的移动目标特征属性输入到评价器网络的第三编码器中进行编码,并将得到的编码结果输入到期望奖励估计解码器中,得到评价器模型预测的期望奖励。
在其中一个实施例中,步骤6包括:将训练好的智能体应用于多主体对多移动目标遍历访问任务分配问题的全局优化中,进行目标分配方案确定情况下的访问序列快速规划和序贯访问总指标估计,从而辅助外层目标分配方案的全局优化,得到移动目标遍历访问序列规划结果。
本方法是基于循环神经网络编码器-解码器模型和注意力机制搭建访问序列规划智能体,其主要包括待规划目标集的特征属性编码器、目标排序解码器和任务时间分割解码器。首先,提取移动目标特征属性,确定任务时间约束,依此配置智能体结构参数;其次,基于蒙特卡洛法在给定的目标特征属性取值域内随机生成训练样本数据,基于异步优势函数行动者-评论家算法框架构造期望奖励预测器,优化智能体的可训练参数。最后将训练后的智能体应用于多对多移动目标遍历访问任务规划问题中的一对多访问序列快速确定和指标估计,从而优化外层的多对多目标分配方案。
训练后的智能体模型的应用流程如图10所示。
在一个具体的实施例中,在目标访问顺序和时间确定后,将序贯访问问题分解为多个单对单目标转移问题,进而求解使路径最短或转移成本最低的单对单目标转移方案。下面结合实施例分析底层的单对单最优转移问题:
具体实例一、二:
对于二维直线匀速运动目标集的遍历访问序列规划问题和二维圆周匀速运动目标集的遍历访问序列规划问题,规定其由上一目标转移至下一目标的速度不限,仅考虑转移路径长度,记其由目标出发的时刻为/>,到达目标/>的时刻为/>,任务时间确定情况下的最短路径长度为/>,其中/>,/>为移动目标的状态预报方法。
具体实例三:
若精确计算,效率通常较低。由于旨在顶层全局优化,可使用快速估计转移成本的近似算法代替精确优化算法。文献(doi.org/10.2514/1.G005220)提出了一种可有效快速估计摄动下单对单交会最优转移速度增量的半解析求法,可应用于本实施例。
需要特别说明的是,任意能以多项式时间复杂度快速估计两目标间最优转移成本的算法与其对应的多目标遍历访问序列规划问题都适用于本方法。
在一个具体的实施例中,利用步骤4所述算法训练智能体,训练设备为230内核3.40GHz服务器,三个实例中智能体的超参数配置如表4所示。采用本发明方法求解实例一、实例二的结果如图11、图12 所示。对于实施例三,随机生成样本可能出现两目标间转移无法同时满足时间约束和机动约束的情况,此时重新生成样本,直到该样本与其他半数以上目标存在可转移关系。
表4智能体超参数配置
将智能体所得解与蚁群算法优化解进行比较,进行10000次独立测试,测试设备为内存16GB速度3.70GHz的台式电脑,结果统计如表5所示。其中,近最优序列指与最优序列差异目标数小于3的访问序列;若所得序列与最优序列差异数目超过半数,认为Actor故障。蚁群算法的参数配置如表6所示。
表5智能体性能验证
表6蚁群算法参数
如图10为智能体在多主体对多目标的遍历任务分配与访问序列规划问题中的应用流程。通过实例三测试智能体处理多航天器对大规模目标交会任务规划问题的性能。将航天器数量固定为10,分工清除123个空间碎片,不同航天器可在相同时段内同步执行各自任务,碎片星历见“The GTOC portal”(https://sophia.estec.esa.int/gtoc_portal/?page_id=814. Problem data: Debris orbits)。建立“碎片→航天器”目标分配信息素矩阵,矩阵每一行元素为单个碎片被分配至各航天器的概率权重。利用蚁群算法信息素更新策略迭代目标分配矩阵,优化过程中通过该矩阵随机采样生成碎片到航天器的分配方案,此后通过智能体的Actor生成交会序列并估计实际指标J。另外,基于蚁群算法构建“碎片→碎片”信息素矩阵,与序列规划智能体进行比较;使用“碎片→碎片”信息素矩阵生成某航天器的交会序列时,将不属于该航天器的目标信息素浓度暂时置为0。两种方法的优化收敛过程如图13所示。蚁群算法概率权重矩阵迭代的超参数配置同表6。使用序列规划智能体和传统优化方法所得解的指标分别为22657.13m/s和23336.82m/s,智能体所得解相对优出3.3%。
本发明利用人工神经网络构造移动目标遍历访问序列快速求解器,能在很短的时间内以非常小的计算代价快速求得最优访问序列和相应指标的近似值,在有效获得最优解的同时极大程度降低问题复杂性,特别适用于多主体面向大规模移动目标备选集的目标选择与访问序列规划问题,如多航天器对大规模碎片云中多碎片的选择与连续清除任务、多服务航天器对多用户航天器的选择与序贯在轨服务任务等。
应该理解的是,虽然图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于改进指针网络的移动目标遍历访问序列规划方法,其特征在于,所述方法包括:
给定被遍历访问的多个移动目标的初始位置属性、运动属性以及运动规律,并提取移动目标特征属性;所述移动目标为卫星、小行星或空间碎片;所述运动属性包括卫星初始运行轨道的半长轴、偏心率、轨道倾角、升交点赤经、近地点幅角和真近点角,以及摄动下轨道面升交点赤经漂移率、近地点幅角漂移率、真近点角变化率;
构建基于改进指针网络的智能体模型;所述智能体模型包括决策器网络和评价器网络,所述决策器网络包括目标排序器和任务时间分割器;所述目标排序器包括第一编码器和目标排序解码器,所述任务时间分割器包括第二编码器和任务时间分割解码器,所述评价器网络包括第三编码器和期望奖励估计解码器;所述目标排序器用于采用第一编码器对移动目标特征属性进行编码,并将得到的编码状态解码为访问目标的索引序列;其中,所述第一编码器用于将不定长移动目标序列的显式特征属性数据转化为定长的隐式决策背景数据,将移动目标特征属性采用卷积嵌入处理,得到目标特征嵌入向量,并将目标特征嵌入向量采用LSTM网络单元进行编码,得到每个移动目标对应的编码状态输出集合和所有移动目标的综合编码状态;所述目标排序解码器用于将编码状态输出解码为访问目标的索引序列;所述任务时间分割器用于采用所述第二编码器对移动目标特征属性进行编码,并将得到的编码状态根据访问目标的索引序列采用任务时间分割解码器进行解码,得到各段两个目标间的转移时长;其中,所述第二编码器用于将移动目标特征属性采用卷积嵌入处理,得到目标特征嵌入向量,并将目标特征嵌入向量采用LSTM网络单元进行编码,得到每个目标对应的编码状态输出集合和所有目标的综合编码状态;任务时间分割解码器用于根据访问目标的索引序列将编码状态输出集合解码为各段两目标间转移时长的期望值,将期望值作为均值构建任务时间分割方案采样的联合高斯分布,并采用蒙特卡洛法,得到各段两个目标间的转移时长;所述评价器网络用于估计期望指标值,作为决策器网络优化的基线,其中第三编码器网络用于将目标的特征属性进行编码,期望奖励估计解码器用于将编码状态转化为指标的期望值;
根据移动目标特征属性的预设取值域,采用蒙特卡洛法生成待规划目标集;
构建强化学习环境,定义损失函数;
根据所述待规划目标集、所述强化学习环境以及所述损失函数,采用异步多线程学习法对智能体模型进行训练,得到训练好的智能体模型;
将训练好的智能体模型应用于航天器对多个移动目标的遍历访问序列规划问题进行最优访问序列估计,得到航天器对多个移动目标的遍历访问序列规划结果。
2.根据权利要求1所述的方法,其特征在于,所述第一编码器、所述第二编码器以及所述第三编码器的结构相同,参数不同;
构建基于改进指针网络的智能体模型,包括:
构建所述决策器网络的所述目标排序器;所述第一编码器包括一维卷积层和编码单元,所述编码单元是采用LSTM网络单元构建的;所述目标排序解码器包括:第一解码单元、第一注意力机制以及softmax激活函数;
构建所述决策器网络的所述任务时间分割器;所述任务时间分割解码器包括:第二解码单元、第二注意力机制、多层感知机、ReLu激活函数;所述第一解码单元和所述第二解码单元均是采用LSTM网络单元构建的;
构建所述评价器网络的所述第三编码器和所述期望奖励估计解码器。
4.根据权利要求3所述的方法,其特征在于,在所述目标排序解码器中:
将目标特征嵌入向量输入到所述解码单元中,得到短期记忆隐层输出和长期记忆综合状态输出为:
将所述短期记忆隐层输出和对所述编码隐层状态输出集合采用所述第一注意力机制进行注意力相关性计算,得到隐层状态的注意力权重为:
其中,v、W 1和W 2为注意力计算中的可训练参数,tanh为双曲正切激活函数;
u j,i为第j次解码对第i项编码隐层状态的注意力权重;
根据目标状态标识对所述注意力权重进行修正,然后对修正结果采用softmax函数进行激活,得到目标的概率权重为:
根据所述目标的概率权重采用蒙特卡洛法随机选择目标,得到一个目标的索引,依此法进行多轮次选择,确定目标访问序列的索引。
5.根据权利要求4所述的方法,其特征在于,在所述任务时间分割解码器中:
将待规划目标集的目标特征嵌入向量按照所述目标访问序列的索引的顺序依次输入到第二解码单元中,得到第二短期记忆隐层输出和第二长期记忆综合状态输出为:
其中,为第二解码单元中LSTM网络单元的可训练参数集合;/>和/>分别第j个目标通过第二解码单元中LSTM网络单元后的第二短期记忆隐层输出和第二长期记忆综合状态输出;/>为待规划目标集的目标特征嵌入向量;
将所述第二短期记忆隐层输出和对所有目标的特征属性通过第二编码器编码后得到的短期记忆隐层输出采用注意力机制进行注意力相关性计算,得到隐层状态的注意力权重为:
根据所述注意力权重和所有目标对应的经第二编码器输出的短期记忆隐层状态,得到解码的隐层输出为;
将所述解码的隐层输出输入到所述多层感知机中,得到两目标间转移时长为:
其中,为由第j个目标转移到第j+1个目标的任务时长期望值,/>为线性整流函数;/>和/>分别为多层感知机的隐层的权重矩阵和偏置向量,/>和/>分别为多层感知机的输出层的权重矩阵和偏置向量,皆为神经网络的可训练参数;/>为第j次解码多层感知机的隐层状态;/>分别为两目标间转移时长的下限和上限约束;
在所述联合高斯分布的基础上采用Ornstein-Uhlenbeck探索法进行随机采样,采样若超出边界值则直接截断取为边界值,并通过梯度下降法对转移时长进行终端收敛;两个目标间的转移时长为:
6.根据权利要求2所述的方法,其特征在于,在所述评价器网络中:
将待规划目标集特征属性输入到第三编码器中,得到各目标编码隐层状态和编码器综合编码状态;
将所述编码器综合编码状态与所有所述编码隐层状态输入到期望奖励估计解码器中,采用注意力机制进行注意力相关性计算,得到各目标编码隐层状态的注意力权重为:
将所述注意力权重和所述目标编码隐层状态进行编码,得到综合编码注意力隐层输出为:
将所述综合编码注意力隐层输出采用多层感知机映射为遍历访问任务的全局期望奖励;所述全局期望奖励为:
7.根据权利要求1所述的方法,其特征在于,构建强化学习环境,定义损失函数,包括:
构建A3C架构的强化学习环境;
设置智能体的损失函数;所述智能体的损失函数包括:决策器网络的损失函数和评价器网络的损失函数,所述决策器网络的损失函数采用优势函数策略梯度损失函数,所述评价器网络的损失函数采用均方差损失函数。
8.根据权利要求1所述的方法,其特征在于,根据所述待规划目标集、所述强化学习环境以及所述损失函数,采用异步多线程学习法对智能体模型进行训练,得到训练好的智能体模型,包括:
将所述待规划目标集的移动目标特征属性分别输入到所述决策器网络和所述评价器网络中,得到决策器网络所得方案对应的实际奖励值和评价器网络预测的期望奖励;
根据所述实际奖励值、所述期望奖励以及损失函数,计算决策器网络的损失和评价器网络模型的损失;
根据所述决策器网络的损失采用反向传播计算策略梯度,通过预定的优化器,更新决策器网络的可训练参数;
根据评价器网络的损失采用反向传播计算价值梯度,通过预定的优化器,更新评价器网络的可训练参数;
通过蒙特卡洛法随机生成待规划目标集,进行下一轮训练,直到达到预设条件,得到训练好的智能体模型。
9.根据权利要求8所述的方法,其特征在于,将所述待规划目标集的移动目标特征属性分别输入到所述决策器网络和所述评价器网络中,得到决策器网络所得方案对应的实际奖励值和评价器网络预测的期望奖励,包括:
将所述待规划目标集的移动目标特征属性输入到所述决策器网络的所述目标排序器中,得到访问序列索引;
将所述待规划目标集的移动目标特征属性根据所述访问序列索引输入到所述决策器网络的所述时间分割器中,得到各段两个目标间的转移时长;
采用近似方法估计任两目标间转移成本,确定所述决策器网络所得方案对应的奖励值;
将所述待规划目标集的移动目标特征属性输入到所述评价器网络的第三编码器中进行编码,并将得到的编码结果输入到期望奖励估计解码器中,得到评价器模型预测的期望奖励。
10.根据权利要求1所述的方法,其特征在于,将训练好的智能体应用于航天器对多个移动目标的遍历访问问题进行最优访问序列估计,得到航天器对个移动目标遍历访问序列规划结果,包括:
将训练好的智能体应用于航天器对个移动目标的遍历访问任务分配问题的全局优化中,进行目标分配方案确定情况下的访问序列快速规划和序贯访问总指标估计,从而辅助外层目标分配方案的全局优化,得到航天器对多个移动目标遍历访问序列规划结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310371070.7A CN116090688B (zh) | 2023-04-10 | 2023-04-10 | 基于改进指针网络的移动目标遍历访问序列规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310371070.7A CN116090688B (zh) | 2023-04-10 | 2023-04-10 | 基于改进指针网络的移动目标遍历访问序列规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116090688A CN116090688A (zh) | 2023-05-09 |
CN116090688B true CN116090688B (zh) | 2023-06-23 |
Family
ID=86210505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310371070.7A Active CN116090688B (zh) | 2023-04-10 | 2023-04-10 | 基于改进指针网络的移动目标遍历访问序列规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116090688B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117270971B (zh) * | 2023-09-15 | 2024-03-19 | 上海合芯数字科技有限公司 | 加载队列控制方法、装置及处理器 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9945677B1 (en) * | 2015-07-23 | 2018-04-17 | X Development Llc | Automated lane and route network discovery for robotic actors |
CN109902876A (zh) * | 2019-03-01 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种确定智能设备移动方向的方法、装置及路径规划系统 |
CN113641192A (zh) * | 2021-07-06 | 2021-11-12 | 暨南大学 | 一种基于强化学习的无人机群智感知任务的路径规划方法 |
CN114167898A (zh) * | 2021-12-15 | 2022-03-11 | 南京航空航天大学 | 一种无人机收集数据的全局路径规划方法及系统 |
CN115545350A (zh) * | 2022-11-28 | 2022-12-30 | 湖南工商大学 | 综合深度神经网络与强化学习的车辆路径问题求解方法 |
CN115759915A (zh) * | 2022-10-21 | 2023-03-07 | 东南大学 | 基于注意力机制和深度强化学习的多约束车辆路径规划方法 |
CN115793641A (zh) * | 2022-11-28 | 2023-03-14 | 北京理工大学 | 基于采样和深度强化学习的自动驾驶分层路径规划方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147901B (zh) * | 2019-04-08 | 2023-04-07 | 合肥工业大学 | 车辆路径规划方法、系统及存储介质 |
CN111241306B (zh) * | 2020-01-21 | 2022-04-29 | 浙江大学 | 一种基于知识图谱和指针网络的路径规划方法 |
CN111461403B (zh) * | 2020-03-06 | 2023-09-29 | 上海汽车集团股份有限公司 | 车辆路径规划方法及装置、计算机可读存储介质、终端 |
CN112529254B (zh) * | 2020-11-19 | 2022-11-25 | 歌尔股份有限公司 | 一种路径规划方法、装置和电子设备 |
CN113051815B (zh) * | 2021-03-18 | 2023-08-11 | 浙江大学 | 一种基于独立指针网络的敏捷成像卫星任务规划方法 |
CN113313267B (zh) * | 2021-06-28 | 2023-12-08 | 浙江大学 | 一种基于值分解和注意力机制的多智能体强化学习方法 |
CN114815834A (zh) * | 2022-04-29 | 2022-07-29 | 浙江工业大学 | 一种舞台环境下的移动智能体动态路径规划方法 |
-
2023
- 2023-04-10 CN CN202310371070.7A patent/CN116090688B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9945677B1 (en) * | 2015-07-23 | 2018-04-17 | X Development Llc | Automated lane and route network discovery for robotic actors |
CN109902876A (zh) * | 2019-03-01 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种确定智能设备移动方向的方法、装置及路径规划系统 |
CN113641192A (zh) * | 2021-07-06 | 2021-11-12 | 暨南大学 | 一种基于强化学习的无人机群智感知任务的路径规划方法 |
CN114167898A (zh) * | 2021-12-15 | 2022-03-11 | 南京航空航天大学 | 一种无人机收集数据的全局路径规划方法及系统 |
CN115759915A (zh) * | 2022-10-21 | 2023-03-07 | 东南大学 | 基于注意力机制和深度强化学习的多约束车辆路径规划方法 |
CN115545350A (zh) * | 2022-11-28 | 2022-12-30 | 湖南工商大学 | 综合深度神经网络与强化学习的车辆路径问题求解方法 |
CN115793641A (zh) * | 2022-11-28 | 2023-03-14 | 北京理工大学 | 基于采样和深度强化学习的自动驾驶分层路径规划方法 |
Non-Patent Citations (3)
Title |
---|
基于双重注意力机制的异步优势行动者评论家算法;凌兴宏;李杰;朱斐;刘全;伏玉琛;;计算机学报(01);全文 * |
基于深度强化学习算法的空间站任务重规划方法;史兼郡;张进;罗亚中;郭帅;李智远;李大鹏;;载人航天(04);全文 * |
基于自回归预测模型的深度注意力强化学习方法;梁星星;冯旸赫;黄金才;王琦;马扬;刘忠;;软件学报(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116090688A (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Willard et al. | Integrating physics-based modeling with machine learning: A survey | |
CN108764560B (zh) | 基于长短期记忆神经网络的航空器场面轨迹预测方法 | |
Rückin et al. | Adaptive informative path planning using deep reinforcement learning for uav-based active sensing | |
CN116090688B (zh) | 基于改进指针网络的移动目标遍历访问序列规划方法 | |
CN108763377B (zh) | 基于卫星故障诊断多源遥测大数据特征提取预处理方法 | |
Zuo et al. | A case learning-based differential evolution algorithm for global optimization of interplanetary trajectory design | |
Hutchinson et al. | Vector-valued Gaussian processes on Riemannian manifolds via gauge independent projected kernels | |
CN117454963A (zh) | 一种基于ga-bp神经网络的sgp4模型精度改进方法及系统 | |
Sun et al. | An adaptive bi-level task planning strategy for multi-USVs target visitation | |
He et al. | IRLSOT: Inverse reinforcement learning for scene‐oriented trajectory prediction | |
CN115840893A (zh) | 一种多变量时间序列预测方法及装置 | |
Chowdhury et al. | Optimal path planning of autonomous marine vehicles in stochastic dynamic ocean flows using a GPU-accelerated algorithm | |
Mücke et al. | Markov chain generative adversarial neural networks for solving Bayesian inverse problems in physics applications | |
Zhai et al. | Parameter estimation and modeling of nonlinear dynamical systems based on Runge–Kutta physics-informed neural network | |
Tibaldi et al. | Bayesian optimization for QAOA | |
CN113537539B (zh) | 一种基于注意力机制的多时间步供热用气量预测模型 | |
Ren et al. | Research on satellite orbit prediction based on neural network algorithm | |
Violos et al. | Next position prediction using LSTM neural networks | |
CN115545159A (zh) | 一种深度神经网络的平均海表面温度预报方法 | |
Razak et al. | Physics-guided deep learning for improved production forecasting in unconventional reservoirs | |
Sarma et al. | Modelling of foF 2 using neural networks at an equatorial anomaly station | |
CN114386666A (zh) | 一种基于时空相关性的风电场短期风速预测方法 | |
Silva et al. | GAN for time series prediction, data assimilation and uncertainty quantification | |
Aakash et al. | Forecasting of Novel Corona Virus Disease (Covid‐19) Using LSTM and XG Boosting Algorithms | |
Hu et al. | A physics-driven deep-learning inverse solver for subsurface sensing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |