CN117688826A - 一种海射火箭子级回收方法、设备及存储介质 - Google Patents

一种海射火箭子级回收方法、设备及存储介质 Download PDF

Info

Publication number
CN117688826A
CN117688826A CN202310857606.6A CN202310857606A CN117688826A CN 117688826 A CN117688826 A CN 117688826A CN 202310857606 A CN202310857606 A CN 202310857606A CN 117688826 A CN117688826 A CN 117688826A
Authority
CN
China
Prior art keywords
recovery
sea
rocket
reinforcement learning
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310857606.6A
Other languages
English (en)
Inventor
王健
布向伟
彭昊旻
姚颂
魏凯
于继超
郭文正
马向明
李凌云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongfang Space Technology Shandong Co Ltd
Orienspace Hainan Technology Co Ltd
Orienspace Technology Beijing Co Ltd
Orienspace Xian Aerospace Technology Co Ltd
Original Assignee
Dongfang Space Technology Shandong Co Ltd
Orienspace Hainan Technology Co Ltd
Orienspace Technology Beijing Co Ltd
Orienspace Xian Aerospace Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongfang Space Technology Shandong Co Ltd, Orienspace Hainan Technology Co Ltd, Orienspace Technology Beijing Co Ltd, Orienspace Xian Aerospace Technology Co Ltd filed Critical Dongfang Space Technology Shandong Co Ltd
Priority to CN202310857606.6A priority Critical patent/CN117688826A/zh
Publication of CN117688826A publication Critical patent/CN117688826A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种海射火箭子级回收方法、设备及存储介质,属于火箭控制技术领域,海射火箭子级回收方法包括:建立海射火箭子级回收模型,并定义优化目标;使用强化学习算法对模型进行训练和优化,使用遗传编程算法对回收轨迹进行搜索和优化,将强化学习算法与遗传编程算法进行融合,将状态信息作为海射火箭子级回收模型的输入,计算并输出动作空间,指导和控制火箭子级回收过程中的行为和决策。本发明能够对搜索空间进行全面的探索,确保找到最优的回收策略,避免局部最优解的限制,有效解决海面发射子级回收中的复杂决策问题,从而提高回收的成功率和可行性。

Description

一种海射火箭子级回收方法、设备及存储介质
技术领域
本发明涉及火箭控制技术领域,特别涉及一种海射火箭子级回收方法、设备及存储介质。
背景技术
海射火箭子级回收技术融合了海面发射和火箭子级回收的优势,具有多方面的技术和经济优势。海洋作为发射平台可以扩大发射范围,避免了对特定地理条件的依赖。这意味着可以根据任务需求选择最佳的发射位置,并在全球范围内进行发射,以适应不同的任务要求和发射时间窗口。此外,由于海洋面积较大,火箭可以更容易地保持安全距离,并减少对人口稠密区域的风险。发射噪音和排放物也可以更好地分散在海洋环境中,减少对人类和自然生态系统的干扰。同时,海射火箭子级回收技术可以实现火箭子级的重复使用,降低航天任务的成本。火箭子级回收后可以进行检查、维修和再利用,避免了每次发射都需要新的子级的成本。
但是,海洋环境的不稳定性和多变性给火箭子级回收带来了巨大挑战。海浪、风力、洋流等因素的干扰使得火箭子级的飞行轨迹规划和控制变得更加困难,导致着陆精度和稳定性难以保证。
此外,海洋环境的复杂性使得火箭子级的轨迹规划和着陆区域选择变得非常具有挑战性。现有技术往往无法充分考虑海洋环境的特点和变化,导致着陆区域的选择不理想,进而影响回收的成功率和安全性。
有鉴于此,实有必要提供一种新的技术方案以解决上述问题。
发明内容
为解决上述技术问题,本申请提供一种海射火箭子级回收方法、设备及存储介质,能够对搜索空间进行全面的探索,确保找到最优的回收策略,避免局部最优解的限制,有效解决海面发射子级回收中的复杂决策问题,从而提高回收的成功率和可行性。
一种海射火箭子级回收方法,其特征在于,包括:
建立海射火箭子级回收模型,并定义优化目标;
使用强化学习算法对海射火箭子级回收模型进行训练和优化;
使用遗传编程算法对回收轨迹进行搜索和优化;
将强化学习算法与遗传编程算法进行融合;
确定海射火箭子级回收中的状态信息表示和动作空间,将状态信息作为海射火箭子级回收模型的输入,计算并输出动作空间,用于指导和控制火箭子级回收过程中的行为和决策。
优选的,所述在建立海射火箭子级回收模型中包括:
基于神经网络将火箭子级回收过程中涉及的相关参数和变量进行建模和表示;
对火箭子级回收过程中可以采取的操作和控制动作进行定义;
定义状态转移函数描述火箭子级在不同状态下执行特定动作后的状态转移规律;
根据目标任务和优化目标,定义一个评估子级回收行为的奖励函数;
定义用于确定子级回收过程结束的终止条件。
优选的,所述火箭子级回收过程中涉及的相关参数包括子级位置、速度、姿态、燃料消耗和环境条件。
优选的,所述使用强化学习算法对海射火箭子级回收模型进行训练和优化包括:
初始化神经网络权重和经验回放缓冲区;
设置初始状态;
分别重置环境状态、步数和累计奖励;
根据策略探索方法从状态中选择动作;
观察环境返回的新状态,奖励,执行选择的动作;
将经验存储到经验回放缓冲区;
从经验回放缓冲区中随机采样训练样本;
计算目标Q值;
更新神经网络的权重和当前状态,增加步数和累计奖励,重复训练过程,直至满足预设训练轮数;
输出训练轮数、累计奖励、步数等结果信息;
返回训练后的神经网络模型。
优选的,所述使用遗传编程算法对回收轨迹进行搜索和优化包括:
初始化种群;
计算每个个体的适应度值,通过评估子级设计的性能指标,来确定适应度;
选择一定数量的个体作为父代个体;
对父代个体进行交叉操作,产生新的子代个体;
对子代个体进行变异操作,引入随机的基因变化;
产生的子代个体与父代个体合并,形成新一代的种群:
进行多轮种群更新直至满足收敛条件,获得最终种群;
从最终的种群中选择适应度最高的个体作为最优解,实现更高的回收着陆成功率和精度。
优选的,所述将强化学习算法与遗传编程算法进行融合包括:
确定强化学习算法和遗传编程算法之间的信息交互方式;
确定强化学习算法与遗传编程算法之间的信息传递机制;
确定强化学习算法和遗传编程算法之间的协同工作方式;
确定利用遗传编程算法生成新个体,并将其融入强化学习算法中的策略;
设定用于监控和控制两个算法之间交互和信息传递的参数。
优选的,所述状态信息表示为将火箭子级的状态信息进行编码和表示,以构成问题的状态空间;所述火箭子级的状态信息包括位置、速度、姿态、感知端数据。
优选的,所述优化目标包括最大化回收成功率以及最小化着陆误差或最小化资源消耗量。
根据本申请的另一方面,还提供一种计算设备包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行所述的海射火箭子级回收方法。
根据本申请的另一方面,还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,当所述指令在计算机上运行时,使得计算机执行所述的海射火箭子级回收方法。
与现有技术相比,本申请至少具有以下有益效果:
1、本发明能够对不同的姿态、轨迹和着陆点进行广泛搜索可能的解空间,通过强化学习和遗传编程的组合,可以对搜索空间进行全面的探索,确保找到最优的回收策略。这种搜索空间探索能够有效保护问题解的多样性,避免局部最优解的限制,有效解决海面发射子级回收中的复杂决策问题,从而提高回收的成功率和可行性。
2、本发明的混合优化算法具有强大的适应性,能够通过强化学习学习环境模型和策略,及时调整控制策略以适应不同的海洋环境变化。这种适应性能够提高回收系统的稳定性和鲁棒性,确保回收过程的可靠性。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附
图中:
图1为本发明海射火箭子级回收方法的整体流程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,一种海射火箭子级回收方法,包括以下步骤:
步骤S1、建立海射火箭子级回收模型,并定义优化目标。
其中,优化目标包括最大化回收成功率以及最小化着陆误差或最小化资源消耗量。
具体的,建立海射火箭子级回收模型包括以下步骤:
步骤S11、基于神经网络将火箭子级回收过程中涉及的相关参数和变量进行建模和表示。
所述火箭子级回收过程中涉及的相关参数包括子级位置、速度、姿态、燃料消耗和环境条件。
步骤S102、对火箭子级回收过程中可以采取的操作和控制动作进行定义。
具体的,可以采取的操作和控制动作应该包括可以离散或连续选择的具体动作,如推力控制、姿态调整等。
步骤S103、定义状态转移函数描述火箭子级在不同状态下执行特定动作后的状态转移规律。
具体的,这个函数可以是物理模型或者基于经验的规则,用于模拟子级在环境中的运动和变化。
步骤S104、根据目标任务和优化目标,定义一个评估子级回收行为的奖励函数。
其中,奖励函数可以鼓励子级实现精准着陆、节约燃料等目标,并惩罚违反安全性和性能要求的行为。
步骤S105、定义用于确定子级回收过程结束的终止条件。
具体的,终止条件可以为达到目标着陆区域、超过最大尝试次数等。
通过以上模型的表达,可以将火箭子级回收问题转化为一个强化学习或优化问题,以寻找最佳策略或设计方案来实现精准的回收着陆。
步骤S2、使用强化学习算法对海射火箭子级回收模型进行训练和优化。
作为本发明的一个实施例,该步骤可以采用如下方式执行:
设置输入参数如下:
风力(WindForce):FW;
风向(WindDirection):θ;
风速(WindSpeed):WS;
海面波浪高度(WaveHeight):WH;
海面波浪周期(WavePeriod):TW;
潮汐高度(TidalHeight):TH;
潮汐周期(TidalPeriod):TT;
水流速度(WaterCurrentVelocity):VC;
目标着陆区域位置(TargetLandingZonePosition):LZ(x,y);
目标着陆区域的磁场强度(MagneticFieldStrengthatTarget LandingZone):MF;
大气压力(AtmosphericPressure):AP;
大气温度(AirTemperature):AT;
相对湿度(RelativeHumidity):RH;
环境光照强度(EnvironmentalLightIntensity):LI;
气象能见度(MeteorologicalVisibility):VI;
学习率(LearningRate):α;
奖励折扣因子(DiscountFactor):γ;
探索率(ExplorationRate):ε;
神经网络架构(NeuralNetworkArchitecture):NN;
训练样本容量(ReplayBufferCapacity):C;
奖励函数(RewardFunction):R(s,a);
经验回放策略(ExperienceReplayStrategy):ER;
最大步数(MaximumSteps):M;
优化器选择(OptimizerSelection):Opt;
神经网络更新频率(NeuralNetworkUpdateFrequency):F;
策略探索方法(ExplorationStrategy):Exp;
训练轮数(NumberofTrainingEpisodes):T;
具体计算过程如下:
初始化神经网络权重:NN.initialize_weights();
初始化经验回放缓冲区:ER.initialize_buffer(C);
设置初始状态:s=initial_state;
重复执行以下步骤直到达到训练轮数T:
对于每个训练轮数,执行以下步骤:
重置环境状态:s=initial_state;
重置步数:t=0;
重置累计奖励:total_reward=0;
当t<M时,执行以下步骤:
从状态s中选择动作a,根据策略探索方法Exp选择动作:a=select_action(s,ε,NN);
执行动作a,观察环境返回的新状态s',奖励r,和是否终止状态done:s',r,done=take_action(a,FW,θ,WS,WH,TW,TH,VC,LZ(x,y),MF,AP,AT,RH,LI,VI);
将经验(s,a,r,s',done)存储到经验回放缓冲区ER;
从经验回放缓冲区ER中随机采样训练样本(s_i,a_i,r_i,s'_i,done_i):samples=ER.sample_batch();
计算目标Q值:target_Q=r_i+γ*max(Q(s'_i,a';θ)),如果状态s'是终止状态,则target_Q=r_i;
更新神经网络的权重:NN.update_weights(samples,target_Q,α,Opt);
更新当前状态s为新状态s':s=s';
增加步数:t=t+1;
增加累计奖励:total_reward=total_reward+r;
输出训练轮数、累计奖励、步数等结果信息:print("Training Episode:",T,"TotalReward:",total_reward,"Steps:",t);
返回训练后的神经网络模型:returnNN。
在以上的计算步骤中,本发明通过在选择动作、执行动作和计算奖励等过程中,将环境参数作为输入传递给相应的函数。这样,强化学习算法能够根据当前的环境条件来调整动作选择和奖励计算,从而适应不同的海射环境。
在海射火箭子级回收中,强化学习算法用于自适应控制和决策,以应对复杂的海洋环境和不确定性。通过与环境的交互,强化学习算法可以学习最优的控制策略,使系统能够适应海面场景下不断变化的自然环境条件和实现高效的回收操作。
步骤S3、使用遗传编程算法对回收轨迹进行搜索和优化。
作为本发明的一个实施例,该步骤可以采用如下方式执行:
设置输入参数如下:
子级设计变量(SubsystemDesignVariables):SDV;
子级设计限制条件(SubsystemDesignConstraints):SDC;
子级性能评估指标(SubsystemPerformanceMetrics):SPM;
子级优化目标(SubsystemOptimizationObjectives):SOO;
子级遗传编程种群大小(SubsystemGeneticProgramming PopulationSize):SGPPS;
子级遗传编程迭代次数(SubsystemGeneticProgrammingNumberofGenerations):SGPNG;
子级遗传编程交叉率(SubsystemGeneticProgramming CrossoverRate):SGPCR;
子级遗传编程变异率(SubsystemGeneticProgramming MutationRate):SGPMR;
子级遗传编程选择策略(SubsystemGeneticProgramming SelectionStrategy):SGPSS;
子级遗传编程适应度函数(SubsystemGeneticProgramming FitnessFunction):SGPFF。
这些参数用于定义遗传编程算法在海射火箭子级回收中的应用。子级设计变量是需要优化的参数或特征,如燃料消耗量、推力控制参数。子级设计限制条件包括可行性和安全性要求,如最大加速度、结构强度。子级性能评估指标用于度量子级的性能和效果。子级优化目标确定了需要优化的具体目标,如最小化燃料消耗、最大化精确着陆概率等。
具体计算步骤如下:
初始化种群:
$P={I_1,I_2,...,I_P}$,其中$I_i$表示第$i$个个体,由一组基因表示。
评估适应度:
对于每个个体$I_i$,计算其适应度值$F(I_i)$,通过评估子级设计的性能指标($SPM$)来确定适应度。
选择操作:
选择一定数量的个体作为父代个体:
$P_s=\text{Select}(P,F,S)$,其中$P_s$表示父代个体,$F$表示适应度函数,$S$表示选择策略。
交叉操作:
对父代个体进行交叉操作,产生新的子代个体:
$P_c=\text{Crossover}(P_s,PC,PCP)$,其中$P_c$表示子代个体,$PC$表示交叉率,$PCP$表示交叉点的选择和交换的方式。
变异操作:
对子代个体进行变异操作,引入随机的基因变化:
$P_m=\text{Mutation}(P_c,PM,PMP)$,其中$P_m$表示变异后的个体,$PM$表示变异率,$PMP$表示变异点的选择和变异方式。
更新种群:
将产生的子代个体与父代个体合并,形成新一代的种群:
$P=P_s\cupP_m$。
重复步骤2至步骤6,进行多轮迭代:
迭代$SGPNG$次数:
for$g=1$to$SGPNG$do;
评估适应度:$F(I_i),\forallI_i\inP$。
选择操作:$P_s=\text{Select}(P,F,S)$。
交叉操作:$P_c=\text{Crossover}(P_s,PC,PCP)$。
变异操作:$P_m=\text{Mutation}(P_c,PM,PMP)$。
更新种群:$P=P_s\cupP_m$。
选择最优个体:
从最终的种群中选择适应度最高的个体作为最优解,实现更高的回收着陆成功率和精度:
$I_{\text{best}}=\text{argmax}(F(I_i)),\forallI_i\in P$。
在海射火箭子级回收中,遗传编程算法用于设计回收策略和轨迹规划方案,从而有效应对非线性和多目标问题。通过演化过程中的选择、交叉和变异操作,遗传编程算法生成适应复杂海洋环境的控制程序,提高海射火箭子级回收的性能和稳定性。
步骤S4、将强化学习算法与遗传编程算法进行融合。
确定算法之间的交互方式和信息传递机制是确保强化学习--遗传编程混合优化算法能够有效融合和协同工作的关键。具体的,包括以下过程:
确定信息交互的方式:确定强化学习和遗传编程算法之间的信息交互方式,例如共享适应度值、最优个体等。可以通过设定共享存储结构或者定义适当的通信机制来实现信息的交流。
设计信息传递机制:确定如何将信息从强化学习算法传递给遗传编程算法,以及从遗传编程算法传递给强化学习算法。这可以包括将适应度值传递给遗传编程算法进行选择操作,或将最优个体的特征传递给强化学习算法进行策略的更新。
确定协同工作方式:确定强化学习和遗传编程算法如何协同工作,例如交替迭代、并行执行或其他方式。这涉及到确定算法的执行顺序、频率以及如何根据需要进行信息交互和协同更新。
更新策略和个体生成:确定如何利用遗传编程算法生成新个体,并将其融入强化学习算法的策略中。这可能涉及对遗传编程算法生成的个体进行评估、选择和融合,然后将其用于更新强化学习算法的策略或价值函数。
监控和控制参数:设定用于监控和控制两个算法之间交互和信息传递的参数。例如,可以设定交互的频率、传递信息的阈值等参数,以确保两个算法之间的有效合作。
融合后的强化学习-遗传编程混合优化算法可以用以下数学公式进行表达:
强化学习算法的值函数更新为:
$V(s)\leftarrowV(s)+\alpha\cdot(R(s,a)+\gamma\cdotV(s')-V(s))$;
其中,$V(s)$是状态$s$的值函数,$\alpha$是学习率,$R(s,a)$是在状态$s$下采取动作$a$后的即时奖励,$\gamma$是奖励折扣因子,$s'$是转移到的下一个状态。
强化学习算法的策略选择为:
$\pi(a|s)=\frac{e^{Q(s,a)/T}}{\sum_{a'}e^{Q(s,a')/T}}$;
其中,$\pi(a|s)$是在状态$s$下选择动作$a$的概率,$Q(s,a)$是状态-动作对$(s,a)$的动作值函数,$T$是温度参数控制探索程度。
遗传编程算法的个体生成和选择为:
$I_i=\text{Select}(P,F,S)$;
其中,$I_i$是第$i$个个体,$P$是种群,$F$是适应度函数,$S$是选择策略。
遗传编程算法的适应度评估为:
$F(I_i)=\text{Evaluate}(I_i)$;
其中,$F(I_i)$是个体$I_i$的适应度值,通过对个体进行评估来计算。
步骤S5、确定海射火箭子级回收中的状态信息表示和动作空间,将状态信息作为海射火箭子级回收模型的输入,计算并输出动作空间,用于指导和控制火箭子级回收过程中的行为和决策。
状态信息表示与动作设计的实质是定义火箭子级回收问题中的状态信息和可用的控制命令,以便在算法中使用。这些信息可以作为算法的输入参数,用于计算并输出相应的结果。
具体来说,状态信息表示方法涉及将火箭子级的位置、速度、姿态、感知端数据等相关信息进行编码和表示,以构成问题的状态空间。这些状态信息的选择应当能够反映火箭子级在回收过程中的关键特征和环境条件。例如,可以使用子级的位置坐标$(x,y,z)$,速度$(v_x,v_y,v_z)$,姿态$(\theta,\phi,\psi)$以及其他传感器或测量数据来描述子级的状态。
动作设计涉及定义可用的控制命令,以便在回收过程中对子级进行控制和调整。例如,可以将推力作为一个控制命令,用于控制子级的推进力大小。偏航角、俯仰角等也可以作为控制命令,用于调整子级的姿态。动作空间可以是连续的或离散的,具体取决于问题的特点和要求。
在算法中,状态信息作为输入参数传递给算法模型,用于计算和更新值函数、策略或优化目标。动作空间则用于从算法中选择合适的控制命令,以实现对子级的控制和调整。
综上所述,该步骤的实质是确定问题的状态信息表示和动作设计,将其作为输入参数供算法使用,并根据算法的计算和优化过程输出相应的结果。状态信息作为输入,动作空间则是输出的一部分,用于指导和控制火箭子级回收过程中的行为和决策。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、工作、器件、组件和/或它们的组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种海射火箭子级回收方法,其特征在于,包括:
建立海射火箭子级回收模型,并定义优化目标;
使用强化学习算法对海射火箭子级回收模型进行训练和优化;
使用遗传编程算法对回收轨迹进行搜索和优化;
将强化学习算法与遗传编程算法进行融合;
确定海射火箭子级回收中的状态信息表示和动作空间,将状态信息作为海射火箭子级回收模型的输入,计算并输出动作空间,用于指导和控制火箭子级回收过程中的行为和决策。
2.如权利要求1所述的海射火箭子级回收方法,其特征在于,所述在建立海射火箭子级回收模型包括:
基于神经网络将火箭子级回收过程中涉及的相关参数和变量进行建模和表示;
对火箭子级回收过程中可以采取的操作和控制动作进行定义;
定义状态转移函数描述火箭子级在不同状态下执行特定动作后的状态转移规律;
根据目标任务和优化目标,定义一个评估子级回收行为的奖励函数;
定义用于确定子级回收过程结束的终止条件。
3.如权利要求2所述的海射火箭子级回收方法,其特征在于,所述火箭子级回收过程中涉及的相关参数包括子级位置、速度、姿态、燃料消耗和环境条件。
4.如权利要求3所述的海射火箭子级回收方法,其特征在于,所述使用强化学习算法对海射火箭子级回收模型进行训练和优化包括:
初始化神经网络权重和经验回放缓冲区;
设置初始状态;
分别重置环境状态、步数和累计奖励;
根据策略探索方法从状态中选择动作;
观察环境返回的新状态,奖励,执行选择的动作;
将经验存储到经验回放缓冲区;
从经验回放缓冲区中随机采样训练样本;
计算目标Q值;
更新神经网络的权重和当前状态,增加步数和累计奖励,重复训练过程,直至满足预设训练轮数;
输出训练轮数、累计奖励、步数等结果信息;
返回训练后的神经网络模型。
5.如权利要求1所述的海射火箭子级回收方法,其特征在于,所述使用遗传编程算法对回收轨迹进行搜索和优化包括:
初始化种群;
计算每个个体的适应度值,通过评估子级设计的性能指标,来确定适应度;
选择一定数量的个体作为父代个体;
对父代个体进行交叉操作,产生新的子代个体;
对子代个体进行变异操作,引入随机的基因变化;
产生的子代个体与父代个体合并,形成新一代的种群:
进行多轮种群更新直至满足收敛条件,获得最终种群;
从最终的种群中选择适应度最高的个体作为最优解,实现更高的回收着陆成功率和精度。
6.如权利要求1所述的海射火箭子级回收方法,其特征在于,所述将强化学习算法与遗传编程算法进行融合包括:
确定强化学习算法和遗传编程算法之间的信息交互方式;
确定强化学习算法与遗传编程算法之间的信息传递机制;
确定强化学习算法和遗传编程算法之间的协同工作方式;
确定利用遗传编程算法生成新个体,并将其融入强化学习算法中的策略;
设定用于监控和控制两个算法之间交互和信息传递的参数。
7.如权利要求1所述的海射火箭子级回收方法,其特征在于,所述状态信息表示为将火箭子级的状态信息进行编码和表示,以构成问题的状态空间;所述火箭子级的状态信息包括位置、速度、姿态、感知端数据。
8.如权利要求1所述的海射火箭子级回收方法,其特征在于,所述优化目标包括最大化回收成功率以及最小化着陆误差或最小化资源消耗量。
9.一种计算设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如权利要求1至8任一项所述的海射火箭子级回收方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至8任一项所述的海射火箭子级回收方法。
CN202310857606.6A 2023-07-13 2023-07-13 一种海射火箭子级回收方法、设备及存储介质 Pending CN117688826A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310857606.6A CN117688826A (zh) 2023-07-13 2023-07-13 一种海射火箭子级回收方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310857606.6A CN117688826A (zh) 2023-07-13 2023-07-13 一种海射火箭子级回收方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117688826A true CN117688826A (zh) 2024-03-12

Family

ID=90134029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310857606.6A Pending CN117688826A (zh) 2023-07-13 2023-07-13 一种海射火箭子级回收方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117688826A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200105130A1 (en) * 2017-05-31 2020-04-02 Beijing Didi Infinity Technology And Development Co., Ltd. Devices and methods for recognizing driving behavior based on movement data
CN114935890A (zh) * 2022-04-18 2022-08-23 西北工业大学 基于强化学习的大型柔性结构传感器作动器优化配置方法
CN115289917A (zh) * 2022-08-12 2022-11-04 中山大学 基于深度学习的火箭子级着陆实时最优制导方法及系统
CN115524964A (zh) * 2022-08-12 2022-12-27 中山大学 一种基于强化学习的火箭着陆实时鲁棒制导方法及系统
CN116068894A (zh) * 2023-01-15 2023-05-05 北京航空航天大学 基于双层强化学习的火箭回收制导方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200105130A1 (en) * 2017-05-31 2020-04-02 Beijing Didi Infinity Technology And Development Co., Ltd. Devices and methods for recognizing driving behavior based on movement data
CN114935890A (zh) * 2022-04-18 2022-08-23 西北工业大学 基于强化学习的大型柔性结构传感器作动器优化配置方法
CN115289917A (zh) * 2022-08-12 2022-11-04 中山大学 基于深度学习的火箭子级着陆实时最优制导方法及系统
CN115524964A (zh) * 2022-08-12 2022-12-27 中山大学 一种基于强化学习的火箭着陆实时鲁棒制导方法及系统
CN116068894A (zh) * 2023-01-15 2023-05-05 北京航空航天大学 基于双层强化学习的火箭回收制导方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DIVA KARTIKA LARASATI等: ""Genetic Algorithms Optimization of a Reinforcement Learning-based Controller for Vertical Landing Rocket Case"", 《2022 IEEE INTERNATIONAL CONFERENCE ON AEROSPACE ELECTRONICS AND REMOTE SENSING TECHNOLOGY (ICARES)》, 31 December 2022 (2022-12-31), pages 1 - 5 *

Similar Documents

Publication Publication Date Title
Zhang et al. Deep interactive reinforcement learning for path following of autonomous underwater vehicle
CN110520868B (zh) 用于分布式强化学习的方法、程序产品和存储介质
Jeerige et al. Comparison of deep reinforcement learning approaches for intelligent game playing
Han et al. Reinforcement learning control of constrained dynamic systems with uniformly ultimate boundedness stability guarantee
US20230244936A1 (en) Multi-agent reinforcement learning with matchmaking policies
Sledge et al. Balancing exploration and exploitation in reinforcement learning using a value of information criterion
CN112001496B (zh) 神经网络结构搜索方法及系统、电子设备及存储介质
CN108983605B (zh) 一种基于深度强化学习进行流体导向的刚体控制的方法
CN115812180A (zh) 使用奖励预测模型的机器人控制的离线学习
CN116324818A (zh) 使用增强时间差异学习训练强化学习智能体
US20220410380A1 (en) Learning robotic skills with imitation and reinforcement at scale
CN114290339B (zh) 基于强化学习和残差建模的机器人现实迁移方法
Pan et al. A probabilistic deep reinforcement learning approach for optimal monitoring of a building adjacent to deep excavation
Peng et al. Model-based actor-critic with chance constraint for stochastic system
CN116892866B (zh) 一种火箭子级回收轨迹规划方法、设备及存储介质
Sumiea et al. Enhanced deep deterministic policy gradient algorithm using grey wolf optimizer for continuous control tasks
CN116933948A (zh) 基于改进海鸥算法与反向传播神经网络的预测方法和系统
CN115906673B (zh) 作战实体行为模型一体化建模方法及系统
CN117688826A (zh) 一种海射火箭子级回收方法、设备及存储介质
Liu et al. Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards
CN115289917B (zh) 基于深度学习的火箭子级着陆实时最优制导方法及系统
CN114861368B (zh) 一种基于近端策略的铁路纵断面设计学习模型的构建方法
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
CN113723012B (zh) 一种基于多智能体生成对抗模仿安全学习的协作围捕方法
CN114523990A (zh) 基于分层强化学习的自动驾驶决策方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 265118 No.1 Haixiang Middle Road, Fengcheng street, Haiyang City, Yantai City, Shandong Province

Applicant after: Dongfang space technology (Shandong) Co.,Ltd.

Applicant after: Dongfang Space (Jiangsu) Aerospace Power Co.,Ltd.

Applicant after: Oriental space technology (Beijing) Co.,Ltd.

Applicant after: Orient Space (Hainan) Technology Co.,Ltd.

Address before: 265118 No.1 Haixiang Middle Road, Fengcheng street, Haiyang City, Yantai City, Shandong Province

Applicant before: Dongfang space technology (Shandong) Co.,Ltd.

Country or region before: China

Applicant before: Oriental space technology (Beijing) Co.,Ltd.

Applicant before: Dongfang Space (Jiangsu) Aerospace Power Co.,Ltd.

Applicant before: Orient Space (Hainan) Technology Co.,Ltd.

Country or region after: China

Address after: 265118 No.1 Haixiang Middle Road, Fengcheng street, Haiyang City, Yantai City, Shandong Province

Applicant after: Dongfang space technology (Shandong) Co.,Ltd.

Applicant after: Oriental space technology (Beijing) Co.,Ltd.

Applicant after: Dongfang Space (Jiangsu) Aerospace Power Co.,Ltd.

Applicant after: Orient Space (Hainan) Technology Co.,Ltd.

Address before: 265118 No.1 Haixiang Middle Road, Fengcheng street, Haiyang City, Yantai City, Shandong Province

Applicant before: Dongfang space technology (Shandong) Co.,Ltd.

Country or region before: China

Applicant before: Oriental space technology (Beijing) Co.,Ltd.

Applicant before: Oriental space (Xi'an) Aerospace Technology Co.,Ltd.

Applicant before: Orient Space (Hainan) Technology Co.,Ltd.

CB02 Change of applicant information