CN113239472A - 一种基于强化学习的导弹制导方法和装置 - Google Patents

一种基于强化学习的导弹制导方法和装置 Download PDF

Info

Publication number
CN113239472A
CN113239472A CN202110775732.8A CN202110775732A CN113239472A CN 113239472 A CN113239472 A CN 113239472A CN 202110775732 A CN202110775732 A CN 202110775732A CN 113239472 A CN113239472 A CN 113239472A
Authority
CN
China
Prior art keywords
action
missile
network
current
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110775732.8A
Other languages
English (en)
Other versions
CN113239472B (zh
Inventor
朱圆恒
李伟凡
熊华
赵冬斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Beijing Institute of Electronic System Engineering
Original Assignee
Institute of Automation of Chinese Academy of Science
Beijing Institute of Electronic System Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, Beijing Institute of Electronic System Engineering filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110775732.8A priority Critical patent/CN113239472B/zh
Publication of CN113239472A publication Critical patent/CN113239472A/zh
Application granted granted Critical
Publication of CN113239472B publication Critical patent/CN113239472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)

Abstract

本发明提供一种基于强化学习的导弹制导方法和装置,其中方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。

Description

一种基于强化学习的导弹制导方法和装置
技术领域
本发明涉及导弹制导技术领域,尤其涉及一种基于强化学习的导弹制导方法和装置。
背景技术
近年来,导弹制导问题受到了广泛的关注。由于近现代的飞行器能力的提升,飞行器的飞行轨迹多变,突破能力增强,对导弹制导控制方法提出了更高的要求。此外,由于导弹具有动力学特性复杂,飞行环境不稳定,控制精度高的特点,需要控制系统具有强鲁棒性并适应变化的目标与环境。传统的控制方法只能适应某一类别的任务,然而,在现代的飞行器突防过程中,导弹和目标飞行器的相对关系有可能快速变化,使得传统的控制方法很难胜任。
在导弹制导算法中,比例导引方法的应用最为广泛,原因在于比例导引方法具有公式简单,参数化调节简单的特点。然而,比例导引方法没有考虑目标机动变化、距离、能量约束等影响因素。因此,比例导引方法采用的轨迹既不是最优轨迹,也不能满足能量等约束的限制。
发明内容
本发明提供一种基于强化学习的导弹制导方法和装置,用以解决现有技术中难以实现带角度约束的导弹围捕的缺陷。
本发明提供一种基于强化学习的导弹制导方法,包括:
基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;
基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;其中,所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息;
将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;
其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。
根据本发明提供一种的基于强化学习的导弹制导方法,所述将所述当前状态输入至动作网络,得到所述动作网络输出的动作,具体包括:
基于所述动作网络的特征层,对所述当前状态进行特征提取,得到当前状态特征;
基于所述动作网络的决策层,结合所述当前状态特征进行动作决策,得到决策动作符合的高斯分布;
对所述高斯分布进行采样,得到所述动作。
根据本发明提供的一种基于强化学习的导弹制导方法,所述动作网络是基于如下步骤训练得到的:
基于预测网络,构建所述预测网络的损失函数;所述预测网络用于基于所述动作网络的特征层的输出,确定对应时刻样本目标的预测加速度;所述预测网络的损失函数用于最小化每一时刻样本目标的预测加速度和实际加速度之间的差异;
基于评价网络,构建自模仿损失函数;所述评价网络用于基于动作网络的特征层的输出,确定对应时刻样本状态的状态值,并基于所述对应时刻样本动作的累计回报以及所述状态值,确定优势动作;所述自模仿损失函数用于令动作网络对确定得到的优势动作进行自模仿学习;
基于所述预测网络的损失函数和所述自模仿损失函数,对所述动作网络进行强化学习。
根据本发明提供的一种基于强化学习的导弹制导方法,所述基于所述对应时刻样本动作的累计回报以及所述状态值,确定优势动作,具体包括:
根据下式确定所述对应时刻样本动作的累计回报:
Figure 569442DEST_PATH_IMAGE001
其中,t为所述对应时刻,T为终止时刻,o t o k 为对应时刻的样本状态,a t a k 为对 应时刻的样本动作,
Figure 232635DEST_PATH_IMAGE002
为所述动作网络确定的策略,γ是折扣因子,r k k时刻的奖励;
Figure 744519DEST_PATH_IMAGE003
t时刻样本动作的累计回报;
根据下式计算所述对应时刻样本动作的优势值:
Figure 834966DEST_PATH_IMAGE004
其中,
Figure 799511DEST_PATH_IMAGE005
t时刻样本状态的状态值,
Figure 263466DEST_PATH_IMAGE006
t时刻样本动作 的优势值;
选取所述优势值大于0的样本动作,作为所述优势动作。
根据本发明提供的一种基于强化学习的导弹制导方法,所述k时刻的奖励是基于下式确定的:
k=T时,
Figure 833119DEST_PATH_IMAGE007
其中,v M v TG 为导弹和样本目标的速度矢量;d 2 为命中目标的最大距离;
k<T时,
Figure 156784DEST_PATH_IMAGE008
其中,α d 是距离奖励的系数、α θ 是角度奖励的系数,D k D k+1k时刻和下一时刻导弹和样本目标之间的相对距离,θ d 为导弹和样本目标之间速度方向的夹角。
根据本发明提供的一种基于强化学习的导弹制导方法,所述动作网络、所述预测网络和所述评价网络构成强化学习模型;
所述强化学习模型的损失函数为:
Figure 811887DEST_PATH_IMAGE009
其中,L ppo为动作网络对应的损失函数,L sup为预测网络的损失函数,L sil为自模仿损失函数;
Figure 79533DEST_PATH_IMAGE010
Figure 300430DEST_PATH_IMAGE011
π θ 为当前所述动作网络确定的策略,π old 为采样时动作网络确定的策略,o t t时刻的样本状态,a t t时刻的样本动作,π θ a t |o t )为当前策略在状态o t 下执行动作a t 的概率,π old a t |o t )为采样策略在状态o t 下执行动作a t 的概率,A πold o t a t )为采样策略在状态o t 下采用动作a t 的优势值,clip()为裁剪函数,将数值裁剪到1-ε至1+ε之间,ε为截断系数;
Figure 998258DEST_PATH_IMAGE012
Figure 937396DEST_PATH_IMAGE013
t时刻样本目标的预测加速度和实际加速度;
Figure 480504DEST_PATH_IMAGE014
t时刻样本动作的优势值,m t t时刻的高斯分布均值。
根据本发明提供的一种基于强化学习的导弹制导方法,所述基于当前时刻以及上一时刻的观测向量,确定当前状态,具体包括:
对当前时刻以及上一时刻的观测向量添加噪声后,分别与对应掩码相乘,得到当前时刻以及上一时刻的筛选观测向量;
将当前时刻以及上一时刻的筛选观测向量融合,得到所述当前状态。
本发明还提供一种基于强化学习的导弹制导装置,包括:
信息获取单元,用于基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;
状态转换单元,用于基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;其中,所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息;
动作决策单元,用于将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;
其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于强化学习的导弹制导方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于强化学习的导弹制导方法的步骤。
本发明提供的一种基于强化学习的导弹制导方法和装置,通过获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,从而确定当前状态,再将当前状态输入至利用强化学习方式训练得到的动作网络,得到动作网络输出的动作,并基于动作,确定导弹的控制量,提高了带角度约束的导弹围捕准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的导弹制导方法的流程示意图之一;
图2为本发明提供的状态转换方法的示意图;
图3为本发明提供的网络结构示意图;
图4为本发明提供的导弹制导方法的流程示意图之二;
图5为本发明提供的动作网络在学习时命中率随训练迭代的变化曲线;
图6为本发明提供的比例导引方法的仿真结果示意图;
图7为本发明提供的强化学习方法的仿真结果示意图;
图8为本发明提供的导弹制导装置的结构示意图;
图9为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的导弹制导方法的流程示意图之一,如图1所示,该方法包括:
步骤110,基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息。
具体地,根据雷达信号,获取当前导弹和目标的位置和姿态信息。其中,导弹和目标的当前位置可以用[x i , y i , z i ]表示,其中上标i=M时指代导弹,i=TG时指代目标,后续不再赘述。由于导弹控制器在执行动作时会损耗能量,因此可以根据导弹损耗的能量,确定导弹当前的剩余能量信息f M
步骤120,基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;其中,观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息。
具体地,根据当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并将基于当前时刻以及上一时刻的观测向量,确定当前状态,从而将观测信息转换为动作网络可以识别的状态信息。
图2为本发明实施例提供的状态转换方法的示意图,如图2所示,目标与导弹的动力学模型满足以下函数关系:
Figure 818556DEST_PATH_IMAGE015
Figure 687286DEST_PATH_IMAGE016
Figure 848141DEST_PATH_IMAGE017
Figure 726098DEST_PATH_IMAGE018
Figure 856340DEST_PATH_IMAGE019
Figure 692709DEST_PATH_IMAGE020
Figure 544122DEST_PATH_IMAGE021
其中,
Figure 756928DEST_PATH_IMAGE022
为输入控制器的控制量,
Figure 744607DEST_PATH_IMAGE023
为控制量的投影分量;v i 为速度,g为重力 加速度,θ i 为俯仰角,Ψ i 为偏航角,
Figure 217789DEST_PATH_IMAGE024
为俯仰角加速度,
Figure 353236DEST_PATH_IMAGE025
为偏航角加速度;
Figure 307416DEST_PATH_IMAGE026
为在 x/y/z坐标轴上的加速度,Δt是仿真的时间步长,t为当前时刻。下一时刻的导弹或目标的 姿态和坐标可以根据上述过程计算。
目标和导弹之间的相对关系可以如下表示:
Figure 477498DEST_PATH_IMAGE027
其中,
Figure 613860DEST_PATH_IMAGE028
代表导弹和目标在三个方向上距离的相对值,
Figure 502182DEST_PATH_IMAGE029
代表 导弹和目标的在三个方向上速度的相对值。
将导弹与目标飞行器的相对信息转换为向量形式:
Figure 994474DEST_PATH_IMAGE030
Figure 19062DEST_PATH_IMAGE031
Figure 305818DEST_PATH_IMAGE032
Figure 412926DEST_PATH_IMAGE033
Figure 708910DEST_PATH_IMAGE034
Figure 588004DEST_PATH_IMAGE035
其中,D为导弹与目标的相对距离,
Figure 576820DEST_PATH_IMAGE036
为导弹与目标的相对速度,
Figure 108908DEST_PATH_IMAGE037
为导弹与目标 的相对俯仰角,
Figure 739740DEST_PATH_IMAGE038
为导弹与目标的相对偏航角,
Figure 738920DEST_PATH_IMAGE039
为俯仰角速率,
Figure 633058DEST_PATH_IMAGE040
为偏航角速率。
对相对距离 D 和相对速度
Figure 452110DEST_PATH_IMAGE036
进行截断和归一化,其中相对距离 D可以归一化为 [0,5000]/5000,相对速度
Figure 86966DEST_PATH_IMAGE036
可以归一化为[0,1000]/1000。
将上述信息组合,可以得到当前时刻的观测向量s t
Figure 675073DEST_PATH_IMAGE041
基于当前时刻以及上一时刻的观测向量,可以确定当前状态o t
步骤130,将当前状态输入至动作网络,得到动作网络输出的动作,并基于动作,确定导弹的控制量;
其中,动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。
具体地,将当前状态o t 输入至动作网络,动作网络可以根据当前状态进行动作决 策,并输出用于指导导弹控制的动作。然后,根据导弹控制器的实际加速度大小
Figure 802429DEST_PATH_IMAGE042
,对 动作网络输出的动作
Figure 312039DEST_PATH_IMAGE043
进行缩放,即,
Figure 550253DEST_PATH_IMAGE044
,得到最终的导弹的控制量。其中, 动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学 习得到的。训练好的动作网络可以根据当前状态执行一个动作,并且根据动作得到的累积 回报结果来不断改善策略,最终使导弹控制到达理想的状态。此外,由于训练过程当中,动 作网络的训练目标始终是逆轨拦截,期望命中角度越小越好。在优化过程当中可以认为是 添加了一个“角度越小越好”的约束。在实际执行过程当中,动作网络也会追求角度越小越 好,因此能够用于带角度约束的导弹制导场景中。
本发明实施例提供的方法,通过获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,从而确定当前状态,再将当前状态输入至利用强化学习方式训练得到的动作网络,得到动作网络输出的动作,并基于动作,确定导弹的控制量,提高了带角度约束的导弹围捕准确性。
基于上述任一实施例,步骤130具体包括:
基于动作网络的特征层,对当前状态进行特征提取,得到当前状态特征;
基于动作网络的决策层,结合当前状态特征进行动作决策,得到决策动作符合的高斯分布;
对高斯分布进行采样,得到动作。
具体地,动作网络可以包括特征层和决策层,其中特征层和决策层均可以通过全连接层构建得到。图3为本发明实施例提供的网络结构示意图,如图3所示,可以由两层全连接隐含层建立特征层,由三个全连接层建立决策层,即,若用FC(n)表示全连接层,其中参数n表示该层神经元个数,那么动作网络的结构可以表示成:FC(64)→FC(32)→FC(2)\FC(2)\FC(1)。此处,全连接层的个数以及每层神经元的个数可以根据实际应用需求确定,图3所示仅为示例,本发明实施例对此不作具体限定。
其中,特征层用于对当前状态进行特征提取,得到当前状态特征。其中,当前状态特征中包含当前状态的语义信息。决策层用于基于当前状态特征进行动作决策,得到决策动作所符合的高斯分布的参数:均值m t 、方差σ t 。随后,对该高斯分布进行采样,得到动作。
基于上述任一实施例,动作网络是基于如下步骤训练得到的:
基于预测网络,构建预测网络的损失函数;预测网络用于基于动作网络的特征层的输出,确定对应时刻样本目标的预测加速度;预测网络的损失函数用于最小化每一时刻样本目标的预测加速度和实际加速度之间的差异;
基于评价网络,构建自模仿损失函数;评价网络用于基于动作网络的特征层的输出,确定对应时刻样本状态的状态值,并基于对应时刻样本动作的累计回报以及状态值,确定优势动作;自模仿损失函数用于令动作网络对确定得到的优势动作进行自模仿学习;
基于预测网络的损失函数和自模仿损失函数,对动作网络进行强化学习。
具体地,为了提高动作网络的训练效果,从而优化动作网络的性能,可以建立辅助 任务,以真实的目标加速度作为标签进行监督学习。此处,可以建立预测网络,构建用于监 督学习的预测网络的损失函数。其中,如图3所示,预测网络用于基于动作网络的特征层的 输出,确定对应时刻样本目标的预测加速度,其可以通过全连接层构建得到。预测网络的损 失函数则用于最小化每一时刻样本目标的预测加速度和实际加速度之间的差异。具体而 言,采集训练样本时,可以直接获取样本目标在当前状态
Figure 193200DEST_PATH_IMAGE045
下的实际加速度
Figure 491457DEST_PATH_IMAGE046
,并在辅助 任务的数据集中保存样本目标的加速度数据
Figure 222784DEST_PATH_IMAGE047
。在训练的阶段,预测网络根据动作 网络特征层的输出预测样本目标的预测加速度
Figure 264689DEST_PATH_IMAGE048
,并与样本目标的实际加速度
Figure 27721DEST_PATH_IMAGE049
建立预 测网络的损失函数。训练过程中,优化器通过优化动作网络特征层的参数以及预测网络的 参数,从而使得预测网络的损失函数最小化。经过这种辅助任务的监督学习,特征层将建立 与目标的加速度的映射关系,有利于动作网络的训练。
此外,还可以对具备优势的样本动作进行自模仿学习,提高动作网络的训练效果。其中,可以建立评价网络,构建自模仿损失函数。此处,如图3所示,评价网络也可以基于全连接层构建得到,其用于基于动作网络的特征层的输出,确定对应时刻样本状态的状态值,并基于对应时刻样本动作的累计回报以及状态值,确定优势动作。其中,样本状态的状态值是指评价网络对当前状态预估的累计回报,优势动作则是指累计回报大于状态值的样本动作。自模仿损失函数则用于令动作网络对确定得到的优势动作进行自模仿学习。
随后,基于预测网络的损失函数和自模仿损失函数,对动作网络进行强化学习。
本发明实施例提供的方法,基于预测网络,构建预测网络的损失函数,基于评价网络,构建自模仿损失函数,从而基于预测网络的损失函数和自模仿损失函数,对动作网络进行强化学习,提高了动作网络的训练效果,从而优化了动作网络的性能。
基于上述任一实施例,基于对应时刻样本动作的累计回报以及状态值,确定优势动作,具体包括:
根据下式确定对应时刻样本动作的累计回报:
Figure 231301DEST_PATH_IMAGE001
其中,t为对应时刻,T为终止时刻,o t o k 为对应时刻的样本状态,a t a k 为对应时 刻的样本动作,
Figure 512240DEST_PATH_IMAGE002
为动作网络确定的策略,γ是折扣因子,r k k时刻的奖励;
Figure 29941DEST_PATH_IMAGE003
t时刻样本动作的累计回报;
根据下式计算对应时刻样本动作的优势值:
Figure 915988DEST_PATH_IMAGE004
其中,
Figure 553118DEST_PATH_IMAGE005
t时刻样本状态的状态值,
Figure 55775DEST_PATH_IMAGE006
t时刻样本动作 的优势值;
选取优势值大于0的样本动作,作为优势动作。
具体地,当评价网络针对训练样本轨迹进行评估,得到某一时刻样本状态的状态值后,可以根据下式确定对应时刻样本动作的累计回报:
Figure 377166DEST_PATH_IMAGE001
其中,t为对应时刻,T为终止时刻,o t o k 为对应时刻的样本状态,a t a k 为对应时 刻的样本动作,
Figure 180037DEST_PATH_IMAGE002
为动作网络确定的策略,γ是折扣因子,r k k时刻的奖励;
Figure 925752DEST_PATH_IMAGE003
t时刻样本动作的累计回报。
根据对应时刻的累积回报和状态值,可以根据下式计算对应时刻样本动作的优势值:
Figure 915704DEST_PATH_IMAGE004
其中,
Figure 40786DEST_PATH_IMAGE005
t时刻样本状态的状态值,
Figure 432584DEST_PATH_IMAGE006
t时刻样本动作 的优势值;
当样本动作的优势值大于0时,其相对其他动作具有优势,因此可以作为优势动作,对其进行自模仿学习。
基于上述任一实施例,k时刻的奖励是基于下式确定的:
k=T时,
Figure 414447DEST_PATH_IMAGE050
其中,v M v TG 为导弹和样本目标的速度矢量;d 2 为命中目标的最大距离;
k<T时,
Figure 849887DEST_PATH_IMAGE051
其中,α d 是距离奖励的系数、α θ 是角度奖励的系数,D k D k+1k时刻和下一时刻导弹和样本目标之间的相对距离,θ d 为导弹和样本目标之间速度方向的夹角。
具体地,当k=T时,此时k时刻的奖励为终止时刻的终止奖励。
Figure 575397DEST_PATH_IMAGE052
其中,v M v TG 为导弹和样本目标的速度矢量;d 2 为命中目标的最大距离。
k<T时,此时k时刻的奖励为中间过程的密集奖励,其由距离奖励和角度奖励组成。
Figure 24964DEST_PATH_IMAGE053
其中,α d 是距离奖励的系数、α θ 是角度奖励的系数,D k D k+1k时刻和下一时刻导弹和样本目标之间的相对距离,θ d 为导弹和样本目标之间速度方向的夹角。
基于上述任一实施例,动作网络、预测网络和评价网络构成强化学习模型;
强化学习模型的损失函数为:
Figure 177728DEST_PATH_IMAGE009
其中,L ppo为动作网络对应的损失函数,L sup为预测网络的损失函数,L sil为自模仿损失函数;
Figure 345535DEST_PATH_IMAGE010
Figure 340649DEST_PATH_IMAGE054
π θ 为当前动作网络确定的策略,π old 为采样时动作网络确定的策略,o t t时刻的样本状态,a t t时刻的样本动作,π θ a t |o t )为当前策略在状态o t 下执行动作a t 的概率,π old a t |o t )为采样策略在状态o t 下执行动作a t 的概率,A πold o t a t )为采样策略在状态o t 下采用动作a t 的优势值,clip()为裁剪函数,将数值裁剪到1-ε至1+ε之间,ε为截断系数;
Figure 972618DEST_PATH_IMAGE055
Figure 233966DEST_PATH_IMAGE056
t时刻样本目标的预测加速度和实际加速度;
Figure 685808DEST_PATH_IMAGE006
t时刻样本动作的优势值,m t t时刻的高斯分布均值。
具体地,动作网络、预测网络和评价网络可以构成强化学习模型,使得在模型训练时,动作网络、预测网络和评价网络可以联合训练,保证动作网络的训练效果。
在训练过程中,可以采用Adam优化器优化评价网络的权重,使误差
Figure 953453DEST_PATH_IMAGE057
最小化,以逼近真实的累积回 报。然后,再联合训练动作网络、预测网络和评价网络。
其中,强化学习模型的损失函数为:
Figure 643192DEST_PATH_IMAGE009
其中,L ppo为动作网络对应的损失函数,L sup为预测网络的损失函数,L sil为自模仿损失函数。
Figure 341020DEST_PATH_IMAGE010
Figure 483420DEST_PATH_IMAGE054
此处,π θ 为动作网络确定的策略,π old 为采样时动作网络确定的策略,o t t时刻的样本状态,a t t时刻的样本动作,π θ a t |o t )为当前策略在状态o t 下执行动作a t 的概率,π old a t |o t )为采样策略在状态o t 下执行动作a t 的概率,A πold o t a t )为采样策略在状态o t 下采用动作a t 的优势值,clip()为裁剪函数,将数值裁剪到1-ε至1+ε之间,ε为截断系数;
Figure 289177DEST_PATH_IMAGE055
Figure 833422DEST_PATH_IMAGE056
t时刻样本目标的预测加速度和实际加速度;
Figure 498890DEST_PATH_IMAGE006
t时刻样本动作的优势值,m t t时刻的高斯分布均值。
基于上述任一实施例,基于当前时刻以及上一时刻的观测向量,确定当前状态,具体包括:
对当前时刻以及上一时刻的观测向量添加噪声后,分别与对应掩码相乘,得到当前时刻以及上一时刻的筛选观测向量;
将当前时刻以及上一时刻的筛选观测向量融合,得到当前状态。
具体地,可以分别对当前时刻以及上一时刻的观测向量添加噪声,其中噪声包括热噪声和脉冲噪声,以增强动作网络的鲁棒性。随后,分别对当前时刻以及上一时刻的观测向量添加一个二进制掩码C M,其长度与观测向量s t 相同。训练过程中,每一轮采样会随机确定两个位置,并设置掩码在该位置的值为0,其余为1。将二进制掩码C M与观测向量相乘,即可得到筛选观测向量c t=C M·s t 。由于动作网络需要适应不同掩码筛选的信息,因此其输出的动作会更加的鲁棒平滑。
随后,将当前时刻以及上一时刻的筛选观测向量融合,得到当前状态,即当前状态o t = [c tc t-1]。
基于上述任一实施例,图4为本发明实施例提供的导弹制导方法的流程示意图之二,如图4所示,该方法包括:
步骤S10,根据雷达信号获取当前导弹和目标的信息,包括位置、姿态信息,以及导弹当前剩余能量信息;
步骤S20,将观测信息转化成预设的动作网络需要的状态;定义导弹和目标的相对距离、相对速度;基于导弹坐标系计算目标与导弹的相对俯仰角、相对偏航角;计算导弹与目标的俯仰角速率、偏航角速率;将上述信息与剩余能量信息整合成当前时刻的观测;对当前时刻观测添加噪声和掩码;将前后两帧的观测整合成完整的状态。
步骤S30,构造导弹训练所需要的各个神经网络,包括动作网络、评价网络和预测网络。
步骤S40,构造预测网络的监督学习辅助任务,通过辅助任务,训练模型根据动作网络的特征层预测当前时刻的目标加速度。
步骤S50,通过模仿采样轨迹,监督学习采样动作。具体可以通过评价网络,对收集的轨迹进行评估,得到对应的状态值;计算收集轨迹的累积回报;根据累积回报和状态值,计算当前状态动作的优势值函数;对优势值函数大于零的动作进行自模仿学习。
步骤S60,通过近端策略优化训练动作网络。
步骤S70,将当前状态输入训练好的动作网络,获得动作网络的采样动作;根据导弹控制器的实际加速度大小对采样动作进行缩放,得到最终的导弹控制器的加速度。
基于上述任一实施例,为了验证上述实施例提供的导弹制导方法效果,本发明实施例设置的测试环境如下:目标机动能力设为9g,延迟设为0.1s、白噪声设为2%、目标初始位置10km、目标机动起始距离为5km。围捕次数为1000次。图5为本发明实施例提供的动作网络在学习时命中率随训练迭代的变化曲线,如图5所示,命中率会随着迭代次数上升,并趋于稳定。图6和图7分别为本发明实施例提供的比例导引方法和强化学习方法的仿真结果示意图,如图6和图7所示,通过对比考虑角度约束的导引算法在围捕逃逸目标时,根据目标逃逸角度而产生的部分可能轨迹,以及强化学习方法在围捕逃逸目标时,根据目标逃逸角度而产生的部分可能轨迹,可以看出上述实施例提供的导弹制导方法相较于传统的比例导引方法具有更好的结果。
基于上述任一实施例,图8为本发明实施例提供的导弹制导装置的结构示意图,如图8所示,该装置包括:信息获取单元810、状态转换单元820和动作决策单元830。
其中,信息获取单元810用于基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;
状态转换单元820用于基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;其中,观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息;
动作决策单元830用于将当前状态输入至动作网络,得到动作网络输出的动作,并基于动作,确定导弹的控制量;
其中,动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。
本发明实施例提供的装置,通过获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,从而确定当前状态,再将当前状态输入至利用强化学习方式训练得到的动作网络,得到动作网络输出的动作,并基于动作,确定导弹的控制量,提高了带角度约束的导弹围捕准确性。
基于上述任一实施例,动作决策单元830具体用于:
基于动作网络的特征层,对当前状态进行特征提取,得到当前状态特征;
基于动作网络的决策层,结合当前状态特征进行动作决策,得到决策动作符合的高斯分布;
对高斯分布进行采样,得到动作。
基于上述任一实施例,动作网络是基于如下步骤训练得到的:
基于预测网络,构建预测网络的损失函数;预测网络用于基于动作网络的特征层的输出,确定对应时刻样本目标的预测加速度;预测网络的损失函数用于最小化每一时刻样本目标的预测加速度和实际加速度之间的差异;
基于评价网络,构建自模仿损失函数;评价网络用于基于动作网络的特征层的输出,确定对应时刻样本状态的状态值,并基于对应时刻样本动作的累计回报以及状态值,确定优势动作;自模仿损失函数用于令动作网络对确定得到的优势动作进行自模仿学习;
基于预测网络的损失函数和自模仿损失函数,对动作网络进行强化学习。
本发明实施例提供的装置,基于预测网络,构建预测网络的损失函数,基于评价网络,构建自模仿损失函数,从而基于预测网络的损失函数和自模仿损失函数,对动作网络进行强化学习,提高了动作网络的训练效果,从而优化了动作网络的性能。
基于上述任一实施例,基于对应时刻样本动作的累计回报以及状态值,确定优势动作,具体包括:
根据下式确定对应时刻样本动作的累计回报:
Figure 863006DEST_PATH_IMAGE001
其中,t为所述对应时刻,T为终止时刻,o t o k 为对应时刻的样本状态,a t a k 为对 应时刻的样本动作,
Figure 537701DEST_PATH_IMAGE002
为所述动作网络确定的策略,γ是折扣因子,r k k时刻的奖励;
Figure 667944DEST_PATH_IMAGE003
t时刻样本动作的累计回报;
根据下式计算所述对应时刻样本动作的优势值:
Figure 238734DEST_PATH_IMAGE004
其中,
Figure 152463DEST_PATH_IMAGE005
t时刻样本状态的状态值,
Figure 302953DEST_PATH_IMAGE006
t时刻样本动作 的优势值;
选取所述优势值大于0的样本动作,作为所述优势动作。
基于上述任一实施例,k时刻的奖励是基于下式确定的:
k=T时,
Figure 352948DEST_PATH_IMAGE058
其中,v M v TG 为导弹和样本目标的速度矢量;d 2 为命中目标的最大距离;
k<T时,
Figure 826131DEST_PATH_IMAGE059
其中,α d 是距离奖励的系数、α θ 是角度奖励的系数,D k D k+1k时刻和下一时刻导弹和样本目标之间的相对距离,θ d 为导弹和样本目标之间速度方向的夹角。
基于上述任一实施例,动作网络、预测网络和评价网络构成强化学习模型;
强化学习模型的损失函数为:
Figure 164839DEST_PATH_IMAGE009
其中,L ppo为动作网络对应的损失函数,L sup为预测网络的损失函数,L sil为自模仿损失函数;
Figure 587861DEST_PATH_IMAGE010
Figure 492363DEST_PATH_IMAGE054
π θ 为当前所述动作网络确定的策略,π old 为采样时动作网络确定的策略,o t t时刻的样本状态,a t t时刻的样本动作,π θ a t |o t )为当前策略在状态o t 下执行动作a t 的概率,π old a t |o t )为采样策略在状态o t 下执行动作a t 的概率,A πold o t a t )为采样策略在状态o t 下采用动作a t 的优势值,clip()为裁剪函数,将数值裁剪到1-ε至1+ε之间,ε为截断系数;
Figure 870868DEST_PATH_IMAGE055
Figure 493610DEST_PATH_IMAGE056
t时刻样本目标的预测加速度和实际加速度;
Figure 985902DEST_PATH_IMAGE006
t时刻样本动作的优势值,m t t时刻的高斯分布均值。
基于上述任一实施例,基于当前时刻以及上一时刻的观测向量,确定当前状态,具体包括:
对当前时刻以及上一时刻的观测向量添加噪声后,分别与对应掩码相乘,得到当前时刻以及上一时刻的筛选观测向量;
将当前时刻以及上一时刻的筛选观测向量融合,得到当前状态。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行基于强化学习的导弹制导方法,该方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;其中,所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于强化学习的导弹制导方法,该方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;其中,所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于强化学习的导弹制导方法,该方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;其中,所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于强化学习的导弹制导方法,其特征在于,包括:
基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;
基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;其中,所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息;
将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;
其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。
2.根据权利要求1所述的基于强化学习的导弹制导方法,其特征在于,所述将所述当前状态输入至动作网络,得到所述动作网络输出的动作,具体包括:
基于所述动作网络的特征层,对所述当前状态进行特征提取,得到当前状态特征;
基于所述动作网络的决策层,结合所述当前状态特征进行动作决策,得到决策动作符合的高斯分布;
对所述高斯分布进行采样,得到所述动作。
3.根据权利要求2所述的基于强化学习的导弹制导方法,其特征在于,所述动作网络是基于如下步骤训练得到的:
基于预测网络,构建所述预测网络的损失函数;所述预测网络用于基于所述动作网络的特征层的输出,确定对应时刻样本目标的预测加速度;所述预测网络的损失函数用于最小化每一时刻样本目标的预测加速度和实际加速度之间的差异;
基于评价网络,构建自模仿损失函数;所述评价网络用于基于动作网络的特征层的输出,确定对应时刻样本状态的状态值,并基于所述对应时刻样本动作的累计回报以及所述状态值,确定优势动作;所述自模仿损失函数用于令动作网络对确定得到的优势动作进行自模仿学习;
基于所述预测网络的损失函数和所述自模仿损失函数,对所述动作网络进行强化学习。
4.根据权利要求3所述的基于强化学习的导弹制导方法,其特征在于,所述基于所述对应时刻样本动作的累计回报以及所述状态值,确定优势动作,具体包括:
根据下式确定所述对应时刻样本动作的累计回报:
Figure 731514DEST_PATH_IMAGE001
其中,t为所述对应时刻,T为终止时刻,o t o k 为对应时刻的样本状态,a t a k 为对应时 刻的样本动作,
Figure 338688DEST_PATH_IMAGE002
为所述动作网络确定的策略,γ是折扣因子,r k k时刻的奖励;
Figure 822890DEST_PATH_IMAGE003
t时刻样本动作的累计回报;
根据下式计算所述对应时刻样本动作的优势值:
Figure 606170DEST_PATH_IMAGE004
其中,
Figure 288955DEST_PATH_IMAGE005
t时刻样本状态的状态值,
Figure 863768DEST_PATH_IMAGE006
t时刻样本动作的优 势值;
选取所述优势值大于0的样本动作,作为所述优势动作。
5.根据权利要求4所述的基于强化学习的导弹制导方法,其特征在于,所述k时刻的奖励是基于下式确定的:
k=T时,
Figure 632004DEST_PATH_IMAGE007
其中,v M v TG 为导弹和样本目标的速度矢量;d 2 为命中目标的最大距离;
k<T时,
Figure 687816DEST_PATH_IMAGE008
其中,α d 是距离奖励的系数、α θ 是角度奖励的系数,D k D k+1k时刻和下一时刻导弹和样本目标之间的相对距离,θ d 为导弹和样本目标之间速度方向的夹角。
6.根据权利要求4所述的基于强化学习的导弹制导方法,其特征在于,所述动作网络、所述预测网络和所述评价网络构成强化学习模型;
所述强化学习模型的损失函数为:
Figure 490687DEST_PATH_IMAGE009
其中,L ppo为动作网络对应的损失函数,L sup为预测网络的损失函数,L sil为自模仿损失函数;
Figure 236401DEST_PATH_IMAGE010
Figure 491933DEST_PATH_IMAGE011
π θ 为当前所述动作网络确定的策略,π old 为采样时动作网络确定的策略,o t t时刻的样本状态,a t t时刻的样本动作,π θ a t |o t )为当前策略在状态o t 下执行动作a t 的概率,π old a t |o t )为采样策略在状态o t 下执行动作a t 的概率,A πold o t a t )为采样策略在状态o t 下采用动作a t 的优势值,clip()为裁剪函数,将数值裁剪到1-ε至1+ε之间,ε为截断系数;
Figure 351436DEST_PATH_IMAGE012
Figure 8814DEST_PATH_IMAGE013
t时刻样本目标的预测加速度和实际加速度;
Figure 928359DEST_PATH_IMAGE006
t时刻样本动作的优势值,m t t时刻的高斯分布均值。
7.根据权利要求1至6任一项所述的基于强化学习的导弹制导方法,其特征在于,所述基于当前时刻以及上一时刻的观测向量,确定当前状态,具体包括:
对当前时刻以及上一时刻的观测向量添加噪声后,分别与对应掩码相乘,得到当前时刻以及上一时刻的筛选观测向量;
将当前时刻以及上一时刻的筛选观测向量融合,得到所述当前状态。
8.一种基于强化学习的导弹制导装置,其特征在于,包括:
信息获取单元,用于基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;
状态转换单元,用于基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;其中,所述观测向量包括导弹和目标的相对距离、相对速度、相对俯仰角、相对偏航角、俯仰角速率、偏航角速率以及导弹当前剩余能量信息;
动作决策单元,用于将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;
其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于强化学习的导弹制导方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于强化学习的导弹制导方法的步骤。
CN202110775732.8A 2021-07-09 2021-07-09 一种基于强化学习的导弹制导方法和装置 Active CN113239472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110775732.8A CN113239472B (zh) 2021-07-09 2021-07-09 一种基于强化学习的导弹制导方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110775732.8A CN113239472B (zh) 2021-07-09 2021-07-09 一种基于强化学习的导弹制导方法和装置

Publications (2)

Publication Number Publication Date
CN113239472A true CN113239472A (zh) 2021-08-10
CN113239472B CN113239472B (zh) 2021-09-21

Family

ID=77141335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110775732.8A Active CN113239472B (zh) 2021-07-09 2021-07-09 一种基于强化学习的导弹制导方法和装置

Country Status (1)

Country Link
CN (1) CN113239472B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114114898A (zh) * 2022-01-27 2022-03-01 北京航空航天大学 空空弹pid参数整定方法、装置、电子设备及存储介质
WO2023108494A1 (zh) * 2021-12-15 2023-06-22 中国科学院深圳先进技术研究院 一种概率滤波强化学习无人船控制方法、装置及终端设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050242242A1 (en) * 2004-04-30 2005-11-03 Technology Service Corporation Methods and systems for guiding an object to a target using an improved guidance law
US20100274415A1 (en) * 2004-12-13 2010-10-28 Lockheed Martin Corporation Time-to-go missile guidance method and system
CN102706217A (zh) * 2012-04-17 2012-10-03 北京理工大学 一种控制多枚导弹攻击角度和攻击时间的方法
CN103245256A (zh) * 2013-04-25 2013-08-14 北京理工大学 一种多导弹协同作战制导律设计方法
CN111121770A (zh) * 2019-12-31 2020-05-08 西北工业大学 一种交互式多弹多模型航迹融合方法
CN111708378A (zh) * 2020-06-22 2020-09-25 哈尔滨工程大学 一种基于强化学习的导弹纵向姿态控制算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050242242A1 (en) * 2004-04-30 2005-11-03 Technology Service Corporation Methods and systems for guiding an object to a target using an improved guidance law
US20100274415A1 (en) * 2004-12-13 2010-10-28 Lockheed Martin Corporation Time-to-go missile guidance method and system
CN102706217A (zh) * 2012-04-17 2012-10-03 北京理工大学 一种控制多枚导弹攻击角度和攻击时间的方法
CN103245256A (zh) * 2013-04-25 2013-08-14 北京理工大学 一种多导弹协同作战制导律设计方法
CN111121770A (zh) * 2019-12-31 2020-05-08 西北工业大学 一种交互式多弹多模型航迹融合方法
CN111708378A (zh) * 2020-06-22 2020-09-25 哈尔滨工程大学 一种基于强化学习的导弹纵向姿态控制算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘俊杰 等: "基于强化学习的飞航导弹姿态控制PID参数调节方法", 《战术导弹技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023108494A1 (zh) * 2021-12-15 2023-06-22 中国科学院深圳先进技术研究院 一种概率滤波强化学习无人船控制方法、装置及终端设备
CN114114898A (zh) * 2022-01-27 2022-03-01 北京航空航天大学 空空弹pid参数整定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113239472B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN113239472B (zh) 一种基于强化学习的导弹制导方法和装置
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN112286218B (zh) 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN110956148A (zh) 无人车的自主避障方法及装置、电子设备、可读存储介质
CN115018017B (zh) 基于集成学习的多智能体信用分配方法、系统、设备
CN113561986A (zh) 自动驾驶汽车决策方法及装置
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
Baek et al. Sparse variational deterministic policy gradient for continuous real-time control
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN113052253A (zh) 超参数确定方法、装置、深度强化学习框架、介质及设备
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN114839884A (zh) 一种基于深度强化学习的水下航行器底层控制方法及系统
CN113947022B (zh) 一种基于模型的近端策略优化方法
Chen et al. Proximal policy optimization guidance algorithm for intercepting near-space maneuvering targets
Kong et al. Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat
CN113139655B (zh) 一种基于强化学习的目标追踪的训练方法、追踪方法
CN114740710A (zh) 一种随机非线性多智能体的强化学习优化编队控制方法
Sandström et al. Fighter pilot behavior cloning
CN112906861A (zh) 神经网络优化方法及装置
CN112965487A (zh) 基于策略迭代的移动机器人轨迹跟踪控制方法
CN115220458A (zh) 基于强化学习的多机器人围捕多目标的分布式决策方法
CN115826621A (zh) 一种基于深度强化学习的无人机运动规划方法及系统
KR20200028801A (ko) 뉴럴 네트워크를 이용한 변분 추론 학습 방법 및 학습 장치, 그리고 이를 이용한 변분 추론 방법 및 장치
CN114137525A (zh) 基于车载毫米波雷达的多目标检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant