CN113239472A

CN113239472A - 一种基于强化学习的导弹制导方法和装置

Info

Publication number: CN113239472A
Application number: CN202110775732.8A
Authority: CN
Inventors: 朱圆恒; 李伟凡; 熊华; 赵冬斌
Original assignee: Institute of Automation of Chinese Academy of Science; Beijing Institute of Electronic System Engineering
Current assignee: Institute of Automation of Chinese Academy of Science; Beijing Institute of Electronic System Engineering
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-08-10
Anticipated expiration: 2041-07-09
Also published as: CN113239472B

Abstract

本发明提供一种基于强化学习的导弹制导方法和装置，其中方法包括：基于雷达信号，获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息；基于当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，确定当前时刻的观测向量，并基于当前时刻以及上一时刻的观测向量，确定当前状态；将所述当前状态输入至动作网络，得到所述动作网络输出的动作，并基于所述动作，确定所述导弹的控制量；其中，所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。

Description

一种基于强化学习的导弹制导方法和装置

技术领域

本发明涉及导弹制导技术领域，尤其涉及一种基于强化学习的导弹制导方法和装置。

背景技术

近年来，导弹制导问题受到了广泛的关注。由于近现代的飞行器能力的提升，飞行器的飞行轨迹多变，突破能力增强，对导弹制导控制方法提出了更高的要求。此外，由于导弹具有动力学特性复杂，飞行环境不稳定，控制精度高的特点，需要控制系统具有强鲁棒性并适应变化的目标与环境。传统的控制方法只能适应某一类别的任务，然而，在现代的飞行器突防过程中，导弹和目标飞行器的相对关系有可能快速变化，使得传统的控制方法很难胜任。

在导弹制导算法中，比例导引方法的应用最为广泛，原因在于比例导引方法具有公式简单，参数化调节简单的特点。然而，比例导引方法没有考虑目标机动变化、距离、能量约束等影响因素。因此，比例导引方法采用的轨迹既不是最优轨迹，也不能满足能量等约束的限制。

发明内容

本发明提供一种基于强化学习的导弹制导方法和装置，用以解决现有技术中难以实现带角度约束的导弹围捕的缺陷。

本发明提供一种基于强化学习的导弹制导方法，包括：

基于雷达信号，获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息；

基于当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，确定当前时刻的观测向量，并基于当前时刻以及上一时刻的观测向量，确定当前状态；其中，所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息；

将所述当前状态输入至动作网络，得到所述动作网络输出的动作，并基于所述动作，确定所述导弹的控制量；

其中，所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。

根据本发明提供一种的基于强化学习的导弹制导方法，所述将所述当前状态输入至动作网络，得到所述动作网络输出的动作，具体包括：

基于所述动作网络的特征层，对所述当前状态进行特征提取，得到当前状态特征；

基于所述动作网络的决策层，结合所述当前状态特征进行动作决策，得到决策动作符合的高斯分布；

对所述高斯分布进行采样，得到所述动作。

根据本发明提供的一种基于强化学习的导弹制导方法，所述动作网络是基于如下步骤训练得到的：

基于预测网络，构建所述预测网络的损失函数；所述预测网络用于基于所述动作网络的特征层的输出，确定对应时刻样本目标的预测加速度；所述预测网络的损失函数用于最小化每一时刻样本目标的预测加速度和实际加速度之间的差异；

基于评价网络，构建自模仿损失函数；所述评价网络用于基于动作网络的特征层的输出，确定对应时刻样本状态的状态值，并基于所述对应时刻样本动作的累计回报以及所述状态值，确定优势动作；所述自模仿损失函数用于令动作网络对确定得到的优势动作进行自模仿学习；

基于所述预测网络的损失函数和所述自模仿损失函数，对所述动作网络进行强化学习。

根据本发明提供的一种基于强化学习的导弹制导方法，所述基于所述对应时刻样本动作的累计回报以及所述状态值，确定优势动作，具体包括：

根据下式确定所述对应时刻样本动作的累计回报：

其中，t为所述对应时刻，T为终止时刻，o _t和o _k为对应时刻的样本状态，a _t和a _k为对应时刻的样本动作，

为所述动作网络确定的策略，γ是折扣因子，r _k为k时刻的奖励；

为t时刻样本动作的累计回报；

根据下式计算所述对应时刻样本动作的优势值：

其中，

为t时刻样本状态的状态值，

为t时刻样本动作的优势值；

选取所述优势值大于0的样本动作，作为所述优势动作。

根据本发明提供的一种基于强化学习的导弹制导方法，所述k时刻的奖励是基于下式确定的：

当k=T时，

其中，v ^M和v ^TG为导弹和样本目标的速度矢量；d ₂为命中目标的最大距离；

当k<T时，

其中，α _d是距离奖励的系数、α _θ是角度奖励的系数，D _k和D _k+1为k时刻和下一时刻导弹和样本目标之间的相对距离，θ _d为导弹和样本目标之间速度方向的夹角。

根据本发明提供的一种基于强化学习的导弹制导方法，所述动作网络、所述预测网络和所述评价网络构成强化学习模型；

所述强化学习模型的损失函数为：

其中，L _ppo为动作网络对应的损失函数，L _sup为预测网络的损失函数，L _sil为自模仿损失函数；

π _θ为当前所述动作网络确定的策略，π _old为采样时动作网络确定的策略，o _t为t时刻的样本状态，a _t为t时刻的样本动作，π _θ（a _t|o _t）为当前策略在状态o _t下执行动作a _t的概率，π _old（a _t|o _t）为采样策略在状态o _t下执行动作a _t的概率，A ^πold（o _t，a _t）为采样策略在状态o _t下采用动作a _t的优势值，clip()为裁剪函数，将数值裁剪到1-ε至1+ε之间，ε为截断系数；

和

为t时刻样本目标的预测加速度和实际加速度；

为t时刻样本动作的优势值，m _t为t时刻的高斯分布均值。

根据本发明提供的一种基于强化学习的导弹制导方法，所述基于当前时刻以及上一时刻的观测向量，确定当前状态，具体包括：

对当前时刻以及上一时刻的观测向量添加噪声后，分别与对应掩码相乘，得到当前时刻以及上一时刻的筛选观测向量；

将当前时刻以及上一时刻的筛选观测向量融合，得到所述当前状态。

本发明还提供一种基于强化学习的导弹制导装置，包括：

信息获取单元，用于基于雷达信号，获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息；

状态转换单元，用于基于当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，确定当前时刻的观测向量，并基于当前时刻以及上一时刻的观测向量，确定当前状态；其中，所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息；

动作决策单元，用于将所述当前状态输入至动作网络，得到所述动作网络输出的动作，并基于所述动作，确定所述导弹的控制量；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于强化学习的导弹制导方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于强化学习的导弹制导方法的步骤。

本发明提供的一种基于强化学习的导弹制导方法和装置，通过获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，从而确定当前状态，再将当前状态输入至利用强化学习方式训练得到的动作网络，得到动作网络输出的动作，并基于动作，确定导弹的控制量，提高了带角度约束的导弹围捕准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的导弹制导方法的流程示意图之一；

图2为本发明提供的状态转换方法的示意图；

图3为本发明提供的网络结构示意图；

图4为本发明提供的导弹制导方法的流程示意图之二；

图5为本发明提供的动作网络在学习时命中率随训练迭代的变化曲线；

图6为本发明提供的比例导引方法的仿真结果示意图；

图7为本发明提供的强化学习方法的仿真结果示意图；

图8为本发明提供的导弹制导装置的结构示意图；

图9为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的导弹制导方法的流程示意图之一，如图1所示，该方法包括：

步骤110，基于雷达信号，获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息。

具体地，根据雷达信号，获取当前导弹和目标的位置和姿态信息。其中，导弹和目标的当前位置可以用[x ⁱ, y ⁱ, z ⁱ]表示，其中上标i=M时指代导弹，i=TG时指代目标，后续不再赘述。由于导弹控制器在执行动作时会损耗能量，因此可以根据导弹损耗的能量，确定导弹当前的剩余能量信息f _M。

步骤120，基于当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，确定当前时刻的观测向量，并基于当前时刻以及上一时刻的观测向量，确定当前状态；其中，观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息。

具体地，根据当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，确定当前时刻的观测向量，并将基于当前时刻以及上一时刻的观测向量，确定当前状态，从而将观测信息转换为动作网络可以识别的状态信息。

图2为本发明实施例提供的状态转换方法的示意图，如图2所示，目标与导弹的动力学模型满足以下函数关系：

其中，

为输入控制器的控制量，

为控制量的投影分量；v ⁱ为速度，g为重力加速度，θ ⁱ为俯仰角，Ψ ⁱ为偏航角，

为俯仰角加速度，

为偏航角加速度；

为在 x/y/z坐标轴上的加速度，Δt是仿真的时间步长，t为当前时刻。下一时刻的导弹或目标的姿态和坐标可以根据上述过程计算。

目标和导弹之间的相对关系可以如下表示：

其中，

代表导弹和目标在三个方向上距离的相对值，

代表导弹和目标的在三个方向上速度的相对值。

将导弹与目标飞行器的相对信息转换为向量形式:

其中，D为导弹与目标的相对距离，

为导弹与目标的相对速度，

为导弹与目标的相对俯仰角，

为导弹与目标的相对偏航角，

为俯仰角速率，

为偏航角速率。

对相对距离 D 和相对速度

进行截断和归一化，其中相对距离 D可以归一化为 [0,5000]/5000，相对速度

可以归一化为[0,1000]/1000。

将上述信息组合，可以得到当前时刻的观测向量s _t：

基于当前时刻以及上一时刻的观测向量，可以确定当前状态o _t。

步骤130，将当前状态输入至动作网络，得到动作网络输出的动作，并基于动作，确定导弹的控制量；

其中，动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。

具体地，将当前状态o _t输入至动作网络，动作网络可以根据当前状态进行动作决策，并输出用于指导导弹控制的动作。然后，根据导弹控制器的实际加速度大小

，对动作网络输出的动作

进行缩放，即，

，得到最终的导弹的控制量。其中，动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。训练好的动作网络可以根据当前状态执行一个动作，并且根据动作得到的累积回报结果来不断改善策略，最终使导弹控制到达理想的状态。此外，由于训练过程当中，动作网络的训练目标始终是逆轨拦截，期望命中角度越小越好。在优化过程当中可以认为是添加了一个“角度越小越好”的约束。在实际执行过程当中，动作网络也会追求角度越小越好，因此能够用于带角度约束的导弹制导场景中。

本发明实施例提供的方法，通过获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，从而确定当前状态，再将当前状态输入至利用强化学习方式训练得到的动作网络，得到动作网络输出的动作，并基于动作，确定导弹的控制量，提高了带角度约束的导弹围捕准确性。

基于上述任一实施例，步骤130具体包括：

基于动作网络的特征层，对当前状态进行特征提取，得到当前状态特征；

基于动作网络的决策层，结合当前状态特征进行动作决策，得到决策动作符合的高斯分布；

对高斯分布进行采样，得到动作。

具体地，动作网络可以包括特征层和决策层，其中特征层和决策层均可以通过全连接层构建得到。图3为本发明实施例提供的网络结构示意图，如图3所示，可以由两层全连接隐含层建立特征层，由三个全连接层建立决策层，即，若用FC(n)表示全连接层，其中参数n表示该层神经元个数，那么动作网络的结构可以表示成：FC(64)→FC(32)→FC(2)\FC(2)\FC(1)。此处，全连接层的个数以及每层神经元的个数可以根据实际应用需求确定，图3所示仅为示例，本发明实施例对此不作具体限定。

其中，特征层用于对当前状态进行特征提取，得到当前状态特征。其中，当前状态特征中包含当前状态的语义信息。决策层用于基于当前状态特征进行动作决策，得到决策动作所符合的高斯分布的参数：均值m _t、方差σ _t。随后，对该高斯分布进行采样，得到动作。

基于上述任一实施例，动作网络是基于如下步骤训练得到的：

基于预测网络，构建预测网络的损失函数；预测网络用于基于动作网络的特征层的输出，确定对应时刻样本目标的预测加速度；预测网络的损失函数用于最小化每一时刻样本目标的预测加速度和实际加速度之间的差异；

基于评价网络，构建自模仿损失函数；评价网络用于基于动作网络的特征层的输出，确定对应时刻样本状态的状态值，并基于对应时刻样本动作的累计回报以及状态值，确定优势动作；自模仿损失函数用于令动作网络对确定得到的优势动作进行自模仿学习；

基于预测网络的损失函数和自模仿损失函数，对动作网络进行强化学习。

具体地，为了提高动作网络的训练效果，从而优化动作网络的性能，可以建立辅助任务，以真实的目标加速度作为标签进行监督学习。此处，可以建立预测网络，构建用于监督学习的预测网络的损失函数。其中，如图3所示，预测网络用于基于动作网络的特征层的输出，确定对应时刻样本目标的预测加速度，其可以通过全连接层构建得到。预测网络的损失函数则用于最小化每一时刻样本目标的预测加速度和实际加速度之间的差异。具体而言，采集训练样本时，可以直接获取样本目标在当前状态

下的实际加速度

，并在辅助任务的数据集中保存样本目标的加速度数据

。在训练的阶段，预测网络根据动作网络特征层的输出预测样本目标的预测加速度

，并与样本目标的实际加速度

建立预测网络的损失函数。训练过程中，优化器通过优化动作网络特征层的参数以及预测网络的参数，从而使得预测网络的损失函数最小化。经过这种辅助任务的监督学习，特征层将建立与目标的加速度的映射关系，有利于动作网络的训练。

此外，还可以对具备优势的样本动作进行自模仿学习，提高动作网络的训练效果。其中，可以建立评价网络，构建自模仿损失函数。此处，如图3所示，评价网络也可以基于全连接层构建得到，其用于基于动作网络的特征层的输出，确定对应时刻样本状态的状态值，并基于对应时刻样本动作的累计回报以及状态值，确定优势动作。其中，样本状态的状态值是指评价网络对当前状态预估的累计回报，优势动作则是指累计回报大于状态值的样本动作。自模仿损失函数则用于令动作网络对确定得到的优势动作进行自模仿学习。

随后，基于预测网络的损失函数和自模仿损失函数，对动作网络进行强化学习。

本发明实施例提供的方法，基于预测网络，构建预测网络的损失函数，基于评价网络，构建自模仿损失函数，从而基于预测网络的损失函数和自模仿损失函数，对动作网络进行强化学习，提高了动作网络的训练效果，从而优化了动作网络的性能。

基于上述任一实施例，基于对应时刻样本动作的累计回报以及状态值，确定优势动作，具体包括：

根据下式确定对应时刻样本动作的累计回报：

其中，t为对应时刻，T为终止时刻，o _t和o _k为对应时刻的样本状态，a _t和a _k为对应时刻的样本动作，

为动作网络确定的策略，γ是折扣因子，r _k为k时刻的奖励；

为t时刻样本动作的累计回报；

根据下式计算对应时刻样本动作的优势值：

其中，

为t时刻样本状态的状态值，

为t时刻样本动作的优势值；

选取优势值大于0的样本动作，作为优势动作。

具体地，当评价网络针对训练样本轨迹进行评估，得到某一时刻样本状态的状态值后，可以根据下式确定对应时刻样本动作的累计回报：

为动作网络确定的策略，γ是折扣因子，r _k为k时刻的奖励；

为t时刻样本动作的累计回报。

根据对应时刻的累积回报和状态值，可以根据下式计算对应时刻样本动作的优势值：

其中，

为t时刻样本状态的状态值，

为t时刻样本动作的优势值；

当样本动作的优势值大于0时，其相对其他动作具有优势，因此可以作为优势动作，对其进行自模仿学习。

基于上述任一实施例，k时刻的奖励是基于下式确定的：

当k=T时，

当k<T时，

具体地，当k=T时，此时k时刻的奖励为终止时刻的终止奖励。

其中，v ^M和v ^TG为导弹和样本目标的速度矢量；d ₂为命中目标的最大距离。

当k<T时，此时k时刻的奖励为中间过程的密集奖励，其由距离奖励和角度奖励组成。

基于上述任一实施例，动作网络、预测网络和评价网络构成强化学习模型；

强化学习模型的损失函数为：

π _θ为当前动作网络确定的策略，π _old为采样时动作网络确定的策略，o _t为t时刻的样本状态，a _t为t时刻的样本动作，π _θ（a _t|o _t）为当前策略在状态o _t下执行动作a _t的概率，π _old（a _t|o _t）为采样策略在状态o _t下执行动作a _t的概率，A ^πold（o _t，a _t）为采样策略在状态o _t下采用动作a _t的优势值，clip()为裁剪函数，将数值裁剪到1-ε至1+ε之间，ε为截断系数；

和

为t时刻样本目标的预测加速度和实际加速度；

为t时刻样本动作的优势值，m _t为t时刻的高斯分布均值。

具体地，动作网络、预测网络和评价网络可以构成强化学习模型，使得在模型训练时，动作网络、预测网络和评价网络可以联合训练，保证动作网络的训练效果。

在训练过程中，可以采用Adam优化器优化评价网络的权重，使误差

最小化，以逼近真实的累积回报。然后，再联合训练动作网络、预测网络和评价网络。

其中，强化学习模型的损失函数为：

其中，L _ppo为动作网络对应的损失函数，L _sup为预测网络的损失函数，L _sil为自模仿损失函数。

此处，π _θ为动作网络确定的策略，π _old为采样时动作网络确定的策略，o _t为t时刻的样本状态，a _t为t时刻的样本动作，π _θ（a _t|o _t）为当前策略在状态o _t下执行动作a _t的概率，π _old（a _t|o _t）为采样策略在状态o _t下执行动作a _t的概率，A ^πold（o _t，a _t）为采样策略在状态o _t下采用动作a _t的优势值，clip()为裁剪函数，将数值裁剪到1-ε至1+ε之间，ε为截断系数；

和

为t时刻样本目标的预测加速度和实际加速度；

为t时刻样本动作的优势值，m _t为t时刻的高斯分布均值。

基于上述任一实施例，基于当前时刻以及上一时刻的观测向量，确定当前状态，具体包括：

将当前时刻以及上一时刻的筛选观测向量融合，得到当前状态。

具体地，可以分别对当前时刻以及上一时刻的观测向量添加噪声，其中噪声包括热噪声和脉冲噪声，以增强动作网络的鲁棒性。随后，分别对当前时刻以及上一时刻的观测向量添加一个二进制掩码C ^M，其长度与观测向量s _t相同。训练过程中，每一轮采样会随机确定两个位置，并设置掩码在该位置的值为0，其余为1。将二进制掩码C ^M与观测向量相乘，即可得到筛选观测向量c _t=C ^M·s _t。由于动作网络需要适应不同掩码筛选的信息，因此其输出的动作会更加的鲁棒平滑。

随后，将当前时刻以及上一时刻的筛选观测向量融合，得到当前状态，即当前状态o _t= [c _t，c _t-1]。

基于上述任一实施例，图4为本发明实施例提供的导弹制导方法的流程示意图之二，如图4所示，该方法包括：

步骤S10，根据雷达信号获取当前导弹和目标的信息，包括位置、姿态信息，以及导弹当前剩余能量信息；

步骤S20，将观测信息转化成预设的动作网络需要的状态；定义导弹和目标的相对距离、相对速度；基于导弹坐标系计算目标与导弹的相对俯仰角、相对偏航角；计算导弹与目标的俯仰角速率、偏航角速率；将上述信息与剩余能量信息整合成当前时刻的观测；对当前时刻观测添加噪声和掩码；将前后两帧的观测整合成完整的状态。

步骤S30，构造导弹训练所需要的各个神经网络，包括动作网络、评价网络和预测网络。

步骤S40，构造预测网络的监督学习辅助任务，通过辅助任务，训练模型根据动作网络的特征层预测当前时刻的目标加速度。

步骤S50，通过模仿采样轨迹，监督学习采样动作。具体可以通过评价网络，对收集的轨迹进行评估，得到对应的状态值；计算收集轨迹的累积回报；根据累积回报和状态值，计算当前状态动作的优势值函数；对优势值函数大于零的动作进行自模仿学习。

步骤S60，通过近端策略优化训练动作网络。

步骤S70，将当前状态输入训练好的动作网络，获得动作网络的采样动作；根据导弹控制器的实际加速度大小对采样动作进行缩放，得到最终的导弹控制器的加速度。

基于上述任一实施例，为了验证上述实施例提供的导弹制导方法效果，本发明实施例设置的测试环境如下：目标机动能力设为9g，延迟设为0.1s、白噪声设为2%、目标初始位置10km、目标机动起始距离为5km。围捕次数为1000次。图5为本发明实施例提供的动作网络在学习时命中率随训练迭代的变化曲线，如图5所示，命中率会随着迭代次数上升，并趋于稳定。图6和图7分别为本发明实施例提供的比例导引方法和强化学习方法的仿真结果示意图，如图6和图7所示，通过对比考虑角度约束的导引算法在围捕逃逸目标时，根据目标逃逸角度而产生的部分可能轨迹，以及强化学习方法在围捕逃逸目标时，根据目标逃逸角度而产生的部分可能轨迹，可以看出上述实施例提供的导弹制导方法相较于传统的比例导引方法具有更好的结果。

基于上述任一实施例，图8为本发明实施例提供的导弹制导装置的结构示意图，如图8所示，该装置包括：信息获取单元810、状态转换单元820和动作决策单元830。

其中，信息获取单元810用于基于雷达信号，获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息；

状态转换单元820用于基于当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，确定当前时刻的观测向量，并基于当前时刻以及上一时刻的观测向量，确定当前状态；其中，观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息；

动作决策单元830用于将当前状态输入至动作网络，得到动作网络输出的动作，并基于动作，确定导弹的控制量；

本发明实施例提供的装置，通过获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，从而确定当前状态，再将当前状态输入至利用强化学习方式训练得到的动作网络，得到动作网络输出的动作，并基于动作，确定导弹的控制量，提高了带角度约束的导弹围捕准确性。

基于上述任一实施例，动作决策单元830具体用于：

对高斯分布进行采样，得到动作。

本发明实施例提供的装置，基于预测网络，构建预测网络的损失函数，基于评价网络，构建自模仿损失函数，从而基于预测网络的损失函数和自模仿损失函数，对动作网络进行强化学习，提高了动作网络的训练效果，从而优化了动作网络的性能。

根据下式确定对应时刻样本动作的累计回报：

为t时刻样本动作的累计回报；

根据下式计算所述对应时刻样本动作的优势值：

其中，

为t时刻样本状态的状态值，

为t时刻样本动作的优势值；

选取所述优势值大于0的样本动作，作为所述优势动作。

基于上述任一实施例，k时刻的奖励是基于下式确定的：

当k=T时，

当k<T时，

强化学习模型的损失函数为：

和

为t时刻样本目标的预测加速度和实际加速度；

为t时刻样本动作的优势值，m _t为t时刻的高斯分布均值。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行基于强化学习的导弹制导方法，该方法包括：基于雷达信号，获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息；基于当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，确定当前时刻的观测向量，并基于当前时刻以及上一时刻的观测向量，确定当前状态；其中，所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息；将所述当前状态输入至动作网络，得到所述动作网络输出的动作，并基于所述动作，确定所述导弹的控制量；其中，所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于强化学习的导弹制导方法，该方法包括：基于雷达信号，获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息；基于当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，确定当前时刻的观测向量，并基于当前时刻以及上一时刻的观测向量，确定当前状态；其中，所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息；将所述当前状态输入至动作网络，得到所述动作网络输出的动作，并基于所述动作，确定所述导弹的控制量；其中，所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于强化学习的导弹制导方法，该方法包括：基于雷达信号，获取当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息；基于当前导弹和目标的位置、姿态信息，以及导弹当前剩余能量信息，确定当前时刻的观测向量，并基于当前时刻以及上一时刻的观测向量，确定当前状态；其中，所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息；将所述当前状态输入至动作网络，得到所述动作网络输出的动作，并基于所述动作，确定所述导弹的控制量；其中，所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。