CN114692310A

CN114692310A - 一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法

Info

Publication number: CN114692310A
Application number: CN202210395757.XA
Authority: CN
Inventors: 张美慧; 史继筠; 何祎君; 侯佳成
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-01

Abstract

本发明涉及一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法，属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代火箭一二级分离系统物理仿真模型，可以快速地生成数据、完成预测。使用Dueling DQN深度强化学习对火箭一二级分离系统结构参数进行优化，将Q值函数分解为价值函数和优势函数，考虑状态单独的影响，使网络更易收敛。相比传统启发式算法，深度强化学习搜索更细致，迭代次数更多，优化结果更优，深度网络可以积累智能体在可行解空间里的搜索经验，对于结构相同的问题大大提升了其拓展性和泛化能力，对于新的数据可以在已经训练过的基础上在进行训练，减少再次开发的成本和时间，通过历史经验减少训练消耗的时间。

Description

一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法

技术领域

本发明涉及航天器设计参数优化技术领域，具体涉及一种火箭一二级分离系统仿真模型的参数优化，主要基于深度强化学习方法Dueling DQN网络进行模型参数优化。

背景技术

航天领域设备研制具有系统复杂、难度大、关键技术多等特点，在研制过程中通常需要借助仿真技术手段，根据仿真结果开展分析验证工作，评估在各种偏差和故障工况下的总体综合性能，并根据结果对模型进行优化，进一步确保飞行试验和发射任务的成功。

虚实融合的航天复杂仿真模型，将获取成本高、实际数据量小的航天器数据与基于物理原理的仿真实验或半实物仿真数据相结合，提高了数据质量和数量，以便后续相关实验。由于系统使用环境复杂，且设计过程与实际实验过程中存在不确定影响，虚实融合的航天复杂仿真模型参数需要进一步优化与调整。

火箭一二级分离系统是一种典型的航天复杂系统，其具有模型结构复杂，控制参数多，不确定性高等特点。通过传统物理公式对一二级分离系统进行仿真建模，由于存在多种误差与不确定因素，往往无法精确确定部分物理参数，在工程应用中，参数往往是在某一取值范围内按照一定分布规律取值，目标结果也只能保证在一定范围内。为了实现更准确的预测和根据目标结果设计系统参数，同时提升模型的迁移能力，需要对仿真模型参数进行优化。

传统的优化方法是通常使用代理模型结合启发式算法的综合方法来实现对模型参数的优化。启发式算法是模拟自然现象而发展起来的一系列仿生智能优化算法，如模拟退火算法、遗传算法、粒子群算法等，启发式算法因为对目标函数的连续性没有要求及其较好的全局搜索能力，因此常被应用在各类优化问题中。由于算法优化过程需要大量评估当前输入的结果，直接使用仿真模型时间代价过高，因此通常引入代理模型，建立输入与输出间的响应关系用于优化过程的评估。常见的代理模型的建立方式包括多项式回归模型、Kriging模型、径向基函数以及人工神经网络等。

但是传统启发式算法的优化方法通常针对特定一组初始状态进行优化，当初始参数发生改变时需要从头开始重新进行一次运算，无法有效利用历史数据，并且泛用性较差，迁移至其他场景下需要重新搜索。

针对上述现有技术的不足，本发明提出一种基于强化学习的模型参数优化方法以解决现有技术中方法泛用性差的问题。强化学习是一种在交互中学习的计算性方法。控制系统通过执行动作与环境交互，以预期收益信号最大化为目标，实现了智能化的控制。强化学习寻求收益最大化的特性使得强化学习也可以应用于模型参数优化过程中。

目前，国内航天领域关于使用深度强化学习模型实现模型参数优化的相关研究较少，同时，由于一二级分离模型参数众多，目标结果维度也较高，过高维度的参数和目标结果对训练造成了巨大的挑战。我们提出一种基于深度强化学习Dueling DQN网络的航天复杂仿真模型优化方法，用以解决高维数据的参数优化问题。

发明内容

本发明的目的在于针对现有技术的上述部分或全部不足，提供一种基于DuelingDQN的虚实融合一二级分离模型参数优化方法，解决火箭一二级分离系统的高维参数优化问题，提高参数优化效率。

本发明提供的一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法，包括以下内容：

建立目标模型对应的或使用已有的目标物理仿真模型TM；

使用所述TM产生模拟数据D_TM；

构建代理模型并使用所述D_TM进行训练得到符合要求的所述TM的代理模型Agent_TM；

构建一二级分离参数优化算法模型，确定深度强化学习网络结构，将参数调优行为优化策略模型转化为马尔可夫决策过程模型；

使用所述Agent_TM构建深度强化学习训练环境；

深度强化学习网络基于强化学习训练环境对待优化参数进行学习寻优。

作为优选，所述使用所述TM产生模拟数据D_TM的过程为：确定所述待优化参数的分布情况，所述分布为均值分布、正态分布或威布尔分布；对各所述待优化参数依据其分布随机取值，连同其它所述火箭一二级分离系统的确定参数一起构成输入参数，将输入参数输入所述TM得到由若干个参数组成的预测结果，将输入参数与预测结果合并为一组完整数据，即输入-输出对；重复上述过程得到多组输入-输出对，即模拟数据D_TM。

作为优选，所述代理模型为BP神经网络模型，BP神经网络是由输入层、2层隐藏层和输出层构成的全连接神经网络，其输入层神经元个数等于所述TM的输入参数个数，其输出层神经元个数等于所述TM中目标结果个数，每个隐藏层神经元个数为128，使用SmoothL1Loss作为损失函数，使用Adam梯度下降方法，使用Relu函数作为激活函数，dropout率为0.5，动态学习率调整以及提前停止方式防止过拟合。

作为优选，所述符合要求的所述Agent_TM满足置信度评估结果C≥90％。

作为优选，所述C通过以下过程获得：

(1)根据所述TM各项输入参数分布产生输入数据D；

(2)将所述D分别输入物理仿真模型与所述代理模型产生物理仿真模型输出数据O_SM和代理模型输出数据O_SU；

(3)计算所述O_SM的平均向量μ以及协方差矩阵M；

(4)分别计算所述O_SM与所述O_SU中每个向量相对所述μ以及所述M的马氏距离，产生两组新的马氏距离数据结果M_SM与M_SU；

(5)根据所述M_SM与M_SU通过下式分别计算近似的联合概率密度分布函数CDF_SM与CDF_SU：

其中，n为样本数量，x_i为n个样本中第i个样本所对应的距离，x_max为n个样本中每个样本所对应的距离的最大值；

(6)根据所述CDF_SM与CDF_SU通过下式计算数据范围内两个概率密度分布函数面积差D'以及仿真模型输出概率度函数面积D：

其中，d_min与d_max分别代表所述M_SM中的最大值与最小值；

(7)根据所述D'与D通过下式计算置信度结果C：

作为优选，所述构建一二级分离参数优化算法模型，确定深度强化学习网络结构，将参数调优行为优化策略模型转化为马尔可夫决策过程模型为：

马尔可夫决策过程是一个五元组<S，A，P，R，γ>模型，包括状态空间S＝{s₁,s₂,...,s_t}、动作空间A＝{a₁,a₂,...,a_t}、状态转移概率P、奖励函数R和折扣因子γ五部分，其中，s_t为t时刻的状态，a_t表示t时刻状态下选择的动作，奖励函数R计算t时刻s_t下采取动作a_t获得的奖励r_t，折扣因子γ取0.9，状态转移概率P表示由一个状态转移到另一个状态的概率，即在深度强化学习中在s_t状态采取动作a_t的概率，由深度神经网络Dueling DQN计算Q值得到；

Dueling DQN网络的结构如下：一个输入层与2个全连接隐藏层依次连接，输入层节点数与s_t的元素个数相同，每个隐藏层节点数为128，记为公共部分网络；第二个隐藏层分别与价值函数独有网络和优势函数独有网络连接，价值函数独有网络由依次相连的隐藏层和输出层组成，隐藏层节点数为128，输出层节点数为1；优势函数独有网络由依次相连的隐藏层和输出层组成，隐藏层节点数为128，输出层节点数与待优化参数个数相同；网络的输入为t时刻的状态s_t，网络的输出为t时刻的Q值；

Dueling DQN将Q值函数表示为价值函数V(s；θ,α)和优势函数A(s,a；θ,β)之和，即：

Q(s,a；θ,α,β)＝V(s；θ,α)+A(s,a；θ,β)

其中，s表示状态，θ表示公共部分网络参数，α表示价值函数独有网络的参数，β表示优势函数独有网络的参数；V(s；θ,α)为价值函数，输出为一个标量，A(s,a；θ,β)为优势函数，输出为一个矢量。

作为优选，所述Q值函数为：

Q(s,a；θ,α,β)＝V(s；θ,α)+[A(s,a；θ,β)-meanA(s,a；θ,β)]

其中，meanA(s,a；θ,β)表示每个批处理batch中优势函数的平均值。

作为优选，所述奖励函数R包含四部分：R_dis,R_dir,R_vel和R_ex；其中，R_dis用于评价分离间隙、距离的准确性，R_dir用于评价分离角度、方向的准确性，R_vel用于评价分离速度的准确性，R_ex用于评价其余各项指标的准确性；R表示为：

其中

分别为：

其中，g，h，i，j，k，l，m，n为系数和常量，用于将奖励值限定在0到10之间，d(X，Y)为求两向量距离；X_dis、X_dir、v_x、X_ex表示火箭一二级分离系统目标结果S_end中表示距离、方向、速度和其余参数的向量，为设计参数优化过程的不变量；

表示t时刻s_t中表示距离、方向、速度和其余参数的元素组成的向量；

表示t-1时刻s_t-1中表示距离、方向的元素组成的向量。

作为优选，使用所述Agent_TM构建深度强化学习训练环境通过以下过程实现：

输入t时刻下状态s_t和动作a_t；

使用a_t更新s_t中的所述待优化参数，得到新的输入参数，将新的输入参数输入所述Agent_TM预测得到输出，将输入参数和输出参数合并得到下步状态s_t+1；

基于s_t和s_t+1使用所述奖励函数R计算得到奖励值r；

输出<s_t,a_t,r,s_t+1>，即当前状态、动作、奖励、下步状态。

作为优选，所述深度强化学习网络基于强化学习训练环境对待优化参数进行学习寻优通过以下过程实现：

(A.1)初始化两个所述Dueling DQN网络参数φ和φ′，φ＝φ′，设定训练轮数M，每轮次迭代次数T，采样数batchsize，网络更新间隔C步，经验池大小N；初始化训练初始状态s₀，此时t＝0；

(A.2)将s_t输入参数为φ的所述Dueling DQN，得到各个动作的Q值Q(s,a；θ,α,β)，根据Q值随机取值得到动作a_t，即所述待优化参数的变化量；

(A.3)将s_t和a_t输入所述深度强化学习训练环境，得到<s_t,a_t,r,s_t+1>，将<s_t,a_t,r,s_t+1>存入经验池，每存入经验池一组数据记为与环境交互一次；

(A.4)重复(A.2)-(A.3)操作，直至经验池满；从N条经验池数据中随机选取batchsize条数据作为一组抽样数据，计算target值y_j，y_j计算方式如下：

其中，j为1到batchsize，表示batchsize个抽样数据中的第几个，r_j表示第j个数据的奖励值，γ为折扣因子，

表示将状态s_j+1输入参数为φ′的所述Dueling DQN网络后动作a′的Q值中最大元素的取值；

通过损失函数loss＝mean(y_j-max_ajQ(s_j,a_j；φ))计算该组抽样数据的平均loss，对loss进行反向传递更新φ，其中max_ajQ(s_j,a_j；φ)表示将状态s_j输入参数为φ的DuelingDQN网络后动作a_j的Q值中最大元素的取值；

清空经验池；

(A.5)重复(A.2)-(A.4)操作，直至与环境交互T次，未满T次则返回(A.3)，满足T次即为完成一轮训练，进入(A.6)；在与环境交互的T次内，每与环境交互C次，将φ的值赋予φ′；

(A.6)若训练满M轮则结束训练，此时经验池中各待优化参数的取值范围即为优化结果，计算经验池中各项参数的均值和方差得到各参数的分布并输出；

若未满M轮则返回(A.2)，开始新一轮训练。

有益效果

本发明提出的基于深度强化学习的模型参数优化方法，使用BP神经网络拟合代理模型，以代理模型替代火箭一二级分离系统物理仿真模型，可以快速地生成数据、完成预测，使用Adams物理仿真模型预测20000组数据需要耗时越20小时，使用代理模型仅需1.6秒。使用Dueling DQN深度强化学习对火箭一二级分离系统结构参数进行优化，将Q值函数分解为价值函数和优势函数，考虑状态单独的影响，使网络更易收敛。相比传统启发式算法，深度强化学习搜索更细致，迭代次数更多，优化结果较优，深度网络可以积累智能体在可行解空间里的搜索经验，对于结构相同的问题大大提升了其拓展性和泛化能力，对于新的数据可以在已经训练过的基础上再进行训练，减少了再次开发的成本和时间，通过历史经验也减少了训练消耗的时间。

附图说明

图1为强化学习原理示意图；

图2为本发明实施例提供的一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法的流程示意图；

图3为本发明实施例提供的用于建立代理模型的BP神经网络结构示意图；

图4为本发明实施例提供的Dueling DQN网络结构示意图；

图5为本发明实施例提供的深度强化学习训练流程示意图。

具体实施方式

下面结合附图，具体说明本发明的优选实施方式。

火箭一二级分离仿真系统通过火箭部分设计参数(包含火箭结构参数、角度、质心、质量等)、作用力参数(作用力大小、方向、时间等)等参数计算得出分离后状态参数(分离时间、分离间隙等)，为了得到更准确的分离后状态参数，确保分离安全，需要对火箭部分设计参数进行调优。如输入参数为49个，设计参数包括12个，作用力参数包括37个，分离后状态等结果参数为17个，根据要求的目标落点对12个设计参数进行调优，即优选出能够使火箭安全分离的设计参数。对于此类关系复杂的多参数优化问题，由于最优化方法可能因难以计算导数信息而不可行，故一般使用基于搜索的启发式算法，如遗传算法、粒子群算法等。但启发式算法不能积累搜索的经验，当初始参数发生变化时要重新进行运算，常常需要花费大量时间进行搜索，泛用性差。而深度强化学习可以积累智能体在环境中的搜索经验，训练出有效的网络，在相似的问题中进行快速搜索。因此，本发明提供一种基于深度强化学习Dueling DQN网络的火箭一二级分离系统模型参数优化方法，能够快速在包含相互影响的多个参数内寻优出满足目标条件的参数范围，为一二级分离系统设计提供满足实际应用的效率和精度保障。强化学习原理如图1所示。

下面，通过对上述示例一二级分离仿真系统设计参数寻优为例，说明本发明提供的基于深度强化学习Dueling DQN网络的虚实融合火箭一二级分离系统模型参数优化方法，本发明方法输入为37个作用力参数、17个目标结果分离状态参数和12个待调优结构参数的取值范围，训练智能体对12个待调优参数进行调整，经过训练后12个待调优参数会稳定在一定范围内，最后稳定的参数范围即为参数优化结果。

图2为本发明实施例提供的一种基于深度强化学习Dueling DQN网络的虚实融合一二级分离系统模型参数优化方法的整体流程示意，如图所示，该方法包括以下步骤：

步骤一、根据火箭一二级分离系统作用过程与物理特性使用Adams仿真软件建立物理仿真模型TM，由某研究所提供，火箭型号为xlv20。

步骤二、使用TM产生模拟数据D_TM；

较优的，根据火箭一二级分离系统各参数数据特点，依据其数据分布特点随机产生数据，将产生的数据输入物理仿真模型TM，预测目标结果，将对应的输入与输出构成一组输入输出对；不断往复上述过程随机产生新的输入数据，通过TM预测得到对应的输出，从而获得多组数据；

其中，输入参数具体涉及的分布有均匀分布、正态分布、威布尔分布；输入参数包括作用力参数F＝(f₁,...,f_n,t₁,...,t_n,deg₁,...,deg_m，...)和结构参数Str＝(x₁,x₂,...,x_n)，作用力参数包含作用力大小f、作用时间t、角度deg等共计37项，结构参数为火箭结构设计参数，即，本例的待优化参数，包含质心位置、结构角度等共计12项。模型的输出为基于输入计算得到的最终分离状态参数S_end＝(t,x₁,...,x_n,deg₁,...,deg_m...)，分离状态参数包含分离时间t、分离后间隙x、分离后方向deg等共计17项。

步骤三、构建代理模型并使用D_TM进行训练得到符合要求的TM的代理模型Agent_TM；

较优的，如图3所示，本例设置代理模型为BP神经网络模型，BP神经网络是由输入层、2层隐藏层和输出层构成的全连接神经网络，其输入层神经元个数等于TM的输入参数个数，其输出层神经元个数等于TM中目标结果个数，每个隐藏层神经元个数为128，使用SmoothL1Loss作为损失函数，使用Adam梯度下降方法，使用Relu函数作为激活函数，dropout率为0.5，动态学习率调整以及提前停止方式防止过拟合。

使用D_TM训练集对上述BP神经网络网络进行训练，得到代理模型。

由于后续需要在强化学习过程中使用代理模型作为强化学习环境，因此需要保证代理模型与仿真模型具有高度一致性，由于本例输出数据维度较高，难以使用传统的评估方法评估代理模型是否满足要求，需要根据火箭一二级分离系统特点设计置信度评估方法，用于评估代理模型是否可用，本例采用代理模型相对于仿真模型的置信度作为代理模型可用的依据。并具体设置置信度评估结果C应满足不低于90％，此时我们认为代理模型与仿真模型一致性高，可用作TM的代理模型Agent_TM。

具体的，C通过以下过程获得：

(1)根据所述TM各项输入参数分布产生输入数据D；

(3)计算所述O_SM的平均向量μ以及协方差矩阵M；

其中，d_min与d_max分别代表所述M_SM中的最大值与最小值；

(7)根据所述D'与D通过下式计算置信度结果C：

较优的，对D_TM中参数进行预处理，实现数据标准化；预处理使用如下Z-Score方法获得原始数据X经标准化后的数据X_new：

其中，X_mean为原始数据中的平均值，σ为原始数据标准差。

由于一二级分离系统数据维度大，且物理含义各异，数量级相差较大，使用原始数据对BP神经网络进行训练难以得到有效的代理模型，通过对模拟数据D_TM中输入-输出对中的参数进行预处理，实现数据标准化，便于BP神经网络的训练。

步骤四、构建一二级分离参数优化算法模型，确定深度强化学习网络结构，将参数调优行为优化策略模型转化为马尔可夫决策过程模型；

较优的，构建一二级分离参数优化算法模型，确定深度强化学习网络结构，将参数调优行为优化策略模型转化为马尔可夫决策过程模型为：

马尔可夫决策过程是一个五元组<S，A，P，R，γ>模型，包括状态空间S＝{s₁,s₂,...,s_t}、动作空间A＝{a₁,a₂,...,a_t}、状态转移概率P、奖励函数R和折扣因子γ五部分，其中，s_t为t时刻的状态，在本实验中为火箭一二级分离系统的全部参数，即F，str，S_end共同组成的66维向量；a_t表示t时刻状态下选择的动作，在本实验中为对str的调整，为12维向量；奖励函数R计算t时刻s_t下采取动作a_t获得的奖励r_t，折扣因子γ一般取0.9，状态转移概率P表示由一个状态转移到另一个状态的概率，即在深度强化学习中在s_t状态采取动作a_t的概率，由深度神经网络Dueling DQN计算Q值得到；

如图4所示，Dueling DQN网络的结构如下：一个输入层与2个全连接隐藏层依次连接，输入层节点数与s_t的元素个数相同，每个隐藏层节点数为128，记为公共部分网络；第二个隐藏层分别与价值函数独有网络和优势函数独有网络连接，价值函数独有网络由依次相连的隐藏层和输出层组成，隐藏层节点数为128，输出层节点数为1；优势函数独有网络由依次相连的隐藏层和输出层组成，隐藏层节点数为128，输出层节点数与待优化参数个数相同；网络的输入为t时刻的状态s_t，网络的输出为t时刻的Q值；

Q(s,a；θ,α,β)＝V(s；θ,α)+A(s,a；θ,β)

进一步的，为了更快收敛，得到更好的训练效果，在训练过程中减去每个批处理batch中优势函数的平均值meanA(s,a；θ,β)，此时，Q值函数表示为：

Q(s,a；θ,α,β)＝V(s；θ,α)+[A(s,a；θ,β)-meanA(s,a；θ,β)]

进一步的，为更好地评估一二级分离系统准确性，设置奖励函数R包含四部分：R_dis,R_dir,R_vel和R_ex；其中，R_dis用于评价分离间隙、距离的准确性，R_dir用于评价分离角度、方向的准确性，R_vel用于评价分离速度的准确性，R_ex用于评价其余各项指标的准确性；表示为：

其中

分别为：

其中，g，h，i，j，k，l，m，n为系数和常量，用于将奖励值限定在0到10之间，d(X，Y)为求两向量距离；X_dis、X_dir、v_x、X_ex表示火箭一二级分离系统目标结果S_aim中表示距离、方向、速度和其余参数的向量，为str结构参数优化过程的不变量；

表示t时刻s_t中表示距离、方向、速度和其余参数的元素组成的向量，各元素取自s_t中S_end集合中的参数；

表示t-1时刻s_t-1中表示距离、方向的元素组成的向量，各元素取自s_t-1中S_end集合中的参数。

步骤五、使用Agent_TM构建深度强化学习训练环境；

具体的，包括以下内容：

输入t时刻下状态s_t和动作a_t；

使用a_t更新s_t中的待优化参数，得到新的输入参数，将新的输入参数输入Agent_TM预测得到输出，将输入参数和输出参数合并得到下步状态s_t+1；

基于s_t和s_t+1使用奖励函数R计算得到奖励值r；

输出<s_t,a_t,r,s_t+1>，即当前状态、动作、奖励、下步状态。

为了减少重复仿真过程浪费过多时间，使用代理模型Agent_TM构建训练环境。训练环境模拟火箭一二级分离仿真过程，输入为火箭一二级分离系统当前66个参数(即形如步骤二中输入-输出对的数据，该输入-输出对作为当前状态s_t)和动作a_t(对待优化参数的调整)，使用动作更新当前一二级分离输入参数，得到新的输入参数，将新的输入参数输入代理模型Agent_TM，预测得到新输入-输出对，即下步状态s_t+1；按照前述奖励函数R计算公式计算得到奖励值r。训练环境的输出为<s_t,a_t,r,s_t+1>，即当前状态、动作、奖励、下步状态。

步骤六、所述深度强化学习网络基于所述强化学习训练环境对待优化参数进行学习寻优；本例中的待优化参数为12个结构参数。

深度强化学习系统的学习目标是动态地调整参数，以达到奖赏的最大化，使用步骤五的训练环境，使用步骤四的算法模型作为更新策略，进行强化学习训练。强化学习训练过程如图5所示，具体步骤如下：

(A.1)初始化两个Dueling DQN网络参数φ和φ′，使φ＝φ′，设定训练轮数M，每轮次迭代次数T，采样数batchsize，网络更新间隔C步，经验池大小N；初始化训练初始状态s₀，此时t＝0；

(A.2)将s_t输入参数为φ的Dueling DQN，得到各个动作的Q值Q(s,a；θ,α,β)，在本实验中其为12维向量；根据Q值随机取值得到动作a_t，即结构参数的变化量；

(A.3)将s_t和a_t输入深度强化学习训练环境，得到<s_t,a_t,r,s_t+1>，将<s_t,a_t,r,s_t+1>存入经验池，每存入经验池一组数据记为与环境交互一次；

其中，j为1到batchsize，表示batchsize个抽样数据中的第几个，r_j表示第j个数据的奖励值，γ为折扣因子，一般取0.9，

表示将状态s_j+1输入参数为φ′的Dueling DQN网络后动作a′的Q值中最大元素的取值；

清空经验池；

(A.6)若训练满M轮则结束训练，此时经验池中12个结构参数的取值范围即为优化结果，计算经验池中12个结构参数中每一个参数的均值和方差得到各参数的分布并输出；此时，输出的这12个结构参数的分布即为本发明的参数优化结果；

若未满M轮则返回(A.2)，开始新一轮训练。

本发明使用基于Dueling DQN的深度强化学习对火箭一二级分离系统参数进行优化，相比传统启发式算法，深度强化学习搜索更细致，迭代次数更多，优化结果较优，深度网络可以积累智能体在可行解空间里的搜索经验，对于结构相同的问题大大提升了其拓展行和泛化能力，对于新的数据可以在已经训练过的基础上在进行训练，减少了再次开发的成本和时间，通过历史经验也减少了训练消耗的时间。

对于本例，12个参数的寻优问题，本发明方法在配置为Intel(R)Core(TM)i7-7700HQ 2.80GHz，八核十六线程，16GB内存容量，1.5TB硬盘容量，GTX 1050Ti的运算环境，可以在20小时内得到符合火箭一二级分离业务场景的设计参数，大幅提高了火箭一二级分离设计单位的设计、生产效率以及设计精度。目前，该方法已在某研究所应用，取得了满足设计精度要求、提高了设计效率的良好效果。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现，上述描述过程中使用的步骤及其序号，仅用于描述方便，不用于限制其必须以序号的顺序实施。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法，其特征在于，包括以下内容：

建立目标模型对应的或使用已有的目标物理仿真模型TM；

使用所述TM产生模拟数据D_TM；

使用所述Agent_TM构建深度强化学习训练环境；

所述深度强化学习网络基于所述强化学习训练环境对待优化参数进行学习寻优。

2.根据权利要求1所述的方法，其特征在于，所述使用所述TM产生模拟数据D_TM的过程为：确定所述待优化参数的分布情况，所述分布为均值分布、正态分布或威布尔分布；对各所述待优化参数依据其分布随机取值，连同其它所述火箭一二级分离系统的确定参数一起构成输入参数，将输入参数输入所述TM得到由若干个参数组成的预测结果，将输入参数与预测结果合并为一组完整数据，即输入-输出对；重复上述过程得到多组输入-输出对，即模拟数据D_TM。

3.根据权利要求2所述的方法，其特征在于，所述代理模型为BP神经网络模型，BP神经网络是由输入层、2层隐藏层和输出层构成的全连接神经网络，其输入层神经元个数等于所述TM的输入参数个数，其输出层神经元个数等于所述TM中目标结果个数，每个隐藏层神经元个数为128，使用SmoothL1Loss作为损失函数，使用Adam梯度下降方法，使用Relu函数作为激活函数，dropout率为0.5，动态学习率调整以及提前停止方式防止过拟合。

4.根据权利要求3所述的方法，其特征在于，所述符合要求的所述Agent_TM满足置信度评估结果C≥90％。

5.根据权利要求4所述的方法，其特征在于，所述C通过以下过程获得：

(1)根据所述TM各项输入参数分布产生输入数据D；

(3)计算所述O_SM的平均向量μ以及协方差矩阵M；