CN113093802B - 一种基于深度强化学习的无人机机动决策方法 - Google Patents
一种基于深度强化学习的无人机机动决策方法 Download PDFInfo
- Publication number
- CN113093802B CN113093802B CN202110364100.2A CN202110364100A CN113093802B CN 113093802 B CN113093802 B CN 113093802B CN 202110364100 A CN202110364100 A CN 202110364100A CN 113093802 B CN113093802 B CN 113093802B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- reward
- soft
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000002787 reinforcement Effects 0.000 title claims abstract description 11
- 230000006870 function Effects 0.000 claims abstract description 46
- 230000009471 action Effects 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims description 54
- 238000010586 diagram Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于深度强化学习的无人机机动决策方法,首先构建无人机机动模型,然后描述无人机和敌机作战相对态势,再依据马尔科夫过程构建状态空间、动作空间和奖惩函数,接下来构建SAC算法模型结构,再定义SAC算法模型参数并进行训练,最后初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。本发明能够有效地令无人机自主决策,无需人工参与,且具有很强的探索能力,能够高效的探索到最优策略。
Description
技术领域
本发明属于无人机技术领域,具体涉及一种无人机机动决策方法。
背景技术
无人机自凭借零伤亡、机动性能强、成本低、隐身性等优势进入军事领域以来,已经被快速并广泛的应用于各类军事用途。然而,现在的无人机在作战方面仍需要有人机或者地面站指挥员的指挥控制,未能实现真正的自主能力,无人机的自主机动决策也逐渐成为无人机领域重要的研究内容之一。
近年来,国内外针对无人机自主智能机动决策问题具有广泛的研究。崔明朗等人提出采用蒙特卡洛强化学习方法实现近距空战机动决策。该方法将动作空间离散化,选择态势评估函数构建状态空间,以空战结果作为返回奖赏的依据,保证机动动作的连续性。专利CN110488872A采用D3QN网络实现无人机的实施路径规划。胡真财设计了基于Q学习(Q-learning)与价值评估网络的空战机动决策方法。该方法将作战动作空间离散化,实现与敌机的对抗机动决策过程。
这些方法没有考虑空战具有大状态空间及大机动的特点,因此以确定性深度强化学习算法进行决策可能无法获取最优结果。
发明内容
为了克服现有技术的不足,本发明提供了一种基于深度强化学习的无人机机动决策方法,首先构建无人机机动模型,然后描述无人机和敌机作战相对态势,再依据马尔科夫过程构建状态空间、动作空间和奖惩函数,接下来构建SAC算法模型结构,再定义SAC算法模型参数并进行训练,最后初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。本发明能够有效地令无人机自主决策,无需人工参与,且具有很强的探索能力,能够高效的探索到最优策略。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S1:构建无人机机动模型;
步骤S2:描述无人机和敌机作战相对态势;
步骤S3:依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R;
步骤S4:构建SAC算法模型结构;
步骤S5:定义SAC算法模型参数并进行训练;
步骤S6:初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。
进一步地,所述构建无人机机动模型的具体步骤包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θt,θt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,为无人机航向角变化量。
进一步地,所述描述无人机和敌机作战相对态势的具体步骤包括:
进一步地,所述依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R的具体步骤包括:
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角。
进一步地,所述构建SAC算法模型结构的具体步骤包括:
Actor神经网络πθ的输入为状态值st,输出为均值μ和方差σ,噪声τ从标准正态分布采样得到;由均值μ和方差σ和噪声τ生成动作at,并通过tanh函数将动作at限制在(-1,1)之间,动作生成过程如下所示:
πθ(st)=N(μ,σ2)
at=N(μ,σ2)=μ+σ*τ
at=tanh(at)
Soft-Q神经网络和的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络和与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数。
进一步地,所述定义SAC算法模型参数并进行训练的具体步骤包括:
定义SAC算法模型参数,包括最大仿真步长N、训练回合episode、时间步长T、训练样本组数batch_size、折扣因子γ、网络学习率lr、熵的正则化系数α、目标熵值H0;
训练SAC算法模型,包括以下步骤:
步骤S51:初始化无人机和敌机作战相对态势,获取状态空间S的初始状态st;
步骤S53:将状态st输入至Actor网络,输出均值μ和方差σ,由步骤S4中动作生成过程得到动作at,无人机执行动作at后获取新状态st+1并根据步骤S3得到奖惩函数R奖惩值r(st,at),并将<st,at,st+1,r(st,at)>元组存储至经验池M;
步骤S54:当经验池M内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,其中Actor神经网络与Soft-Q神经网络的损失函数分别如下:
更新正则化系数α,损失函数为:
J(α)=E[-αlogπθ(at|st)-αH0]
步骤S55:判定是否作战成功,若是,则执行步骤S56;否则令st=st+1,转至执行步骤S53;
步骤S56:判定SAC算法是否收敛或是否达到训练回合,若是,则结束训练,保存训练结束后的模型;否则转至执行步骤S51。
进一步地,所述初始化无人机和敌机作战态势,使用训练完成算法进行机动决策的具体步骤包括:
步骤S61:初始化作战双方的初始态势,获取初始状态st;
步骤S62:对状态s进行记录,将状态st输入至训练完成的SAC算法模型的Actor神经网络,输出动作at=πθ(st),无人机执行动作at,敌机执行随机动作,获取新状态st+1;
步骤S63:判定作战是否成功,若是,则结束;否则令st=st+1,并转至执行步骤S62;
步骤S64:记录无人机作战成功时的步长,根据所记录状态st画出作战双方轨迹图。
进一步地,所述batch_size=256,T=0.1s。
本发明的有益效果如下:
1、本发明将深度强化学习算法中的非确定性策略算法SAC应用至无人机机动决策中,能够有效地令无人机自主决策,无需人工参与;
2、本发明中的非确定性机动策略具有很强的探索能力,能够高效的探索到最优策略。
附图说明
图1是本发明方法流程图。
图2是本发明方法的SAC算法模型网络结构。
图3是本发明实施例的导弹攻击区。
图4是本发明实施例的作战轨迹图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种基于深度强化学习的无人机机动决策方法,包括以下步骤:
步骤S1:构建无人机机动模型;
步骤S2:描述无人机和敌机作战相对态势;
步骤S3:依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R;
步骤S4:构建SAC算法模型结构;
步骤S5:定义SAC算法模型参数并进行训练;
步骤S6:初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。
进一步地,所述构建无人机机动模型的具体步骤包括:
对建立无人机运动、动力学模型作如下假设:
(1)假设无人机为刚体;
(2)忽略地球自转及公转影响,忽略地球曲率;
(3)基于近距空战格斗机动幅度大、战斗时间短的特点,忽略风力的作用以及油耗的影响。
在三维空间中,无人机具有位置、速度和姿态等物理描述量。设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
在考察无人机运动时,将无人机视为质点,无人机运动方程如下所示:
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θt,θt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,为无人机航向角变化量。
进一步地,所述描述无人机和敌机作战相对态势的具体步骤包括:
进一步地,所述依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R的具体步骤包括:
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
奖励函数由连续奖励及激励奖励共同组成,解决了算法长期无法得到奖励回应,导致算法收敛较慢或无法收敛的问题。其中,连续奖励函数与相对方位角及相对距离呈负相关,用于引导策略探索,激励函数为常值,用于激励算法保存已探索到的较优策略。
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角。
进一步地,所述构建SAC算法模型结构的具体步骤包括:
经验池M是一种经验回放缓存结构,用来专门贮存强化学习中学习的经验。
Actor神经网络πθ的输入为状态值st,输出为均值μ和方差σ,噪声τ从标准正态分布采样得到;由均值μ和方差σ和噪声τ生成动作at,并通过tanh函数将动作at限制在(-1,1)之间,动作生成过程如下所示:
πθ(st)=N(μ,σ2)
at=N(μ,σ2)=μ+σ*τ
at=tanh(at)
Soft-Q神经网络和的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络和与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数。
进一步地,所述定义SAC算法模型参数并进行训练的具体步骤包括:
定义SAC算法模型参数,包括最大仿真步长N、训练回合episode、时间步长T、训练样本组数batch_size、折扣因子γ、网络学习率lr、熵的正则化系数α、目标熵值H0;
训练SAC算法模型,包括以下步骤:
步骤S51:初始化无人机和敌机作战相对态势,获取状态空间S的初始状态st;
步骤S53:将状态st输入至Actor网络,输出均值μ和方差σ,由步骤S4中动作生成过程得到动作at,无人机执行动作at后获取新状态st+1并根据步骤S3得到奖惩函数R奖惩值r(st,at),并将<st,at,st+1,r(st,at)>元组存储至经验池M;
步骤S54:当经验池M内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的权重进行更新;针对Actor神经网络损失函数和Soft-Q神经网络的损失函数进行学习率为lr的梯度下降以更新Actor神经网络和Soft-Q神经网络权重;
其中Actor神经网络损失函数定义如下:
更新正则化系数α,损失函数为:
J(α)=E[-αlogπθ(at|st)-αH0]
步骤S55:判定是否作战成功,若是,则执行步骤S56;否则令st=st+1,转至执行步骤S53;
判定作战成功条件如下:
设敌机连续处于无人机导弹攻击区的时间为tin,当满足下式时,即可认为无人机导弹发射成功,且敌机被导弹摧毁,作战成功。
步骤S56:判定SAC算法是否收敛或是否达到训练回合,若是,则结束训练,保存训练结束后的模型;否则转至执行步骤S51。
进一步地,所述初始化作战态势,使用训练完成算法进行机动决策的具体步骤包括:
步骤S61:初始化作战双方的初始态势,获取初始状态st;
步骤S62:对状态s进行记录,将状态st输入至训练完成的SAC算法模型的Actor神经网络,输出动作at=πθ(st),无人机执行动作at,敌机执行随机动作,获取新状态st+1;
步骤S63:判定作战是否成功,若是,则结束;否则令st=st+1,并转至执行步骤S62;
步骤S64:记录无人机作战成功时的步长,根据所记录状态st画出作战双方轨迹图。
具体实施例:
实施例中,初始化无人机的初始位置向量为[-6km,2km,6km],初始俯仰角、偏航角分别为2°、120°,初始速度为80m/s;敌方的初始位置向量为[6km,6km,6km],初始俯仰角、偏航角分别为1°、-60°,初始速度为60m/s。计算得到d=12.64km,q=47.35°。
初始状态空间s=[-6km,2km,6km,80,2,120,12.64,47.35]。
导弹的最大攻击距离为6km,最小攻击距离为1km,导弹的最大离轴发射角为30°,w1=w2=0.5,导弹的攻击区如图3所示。
SAC算法中Actor神经网络隐含层层数l=2,各层的节点个数n=256。优化算法为Adam算法、折扣因子γ=0.99、网络学习率lr=0.0003、熵的正则化系数α=1、目标熵值H0=-3。
最大仿真步长N=800、训练回合episode=2000、时间步长T=0.1s、训练样本组数batch_size=256。
经过训练后,初始化作战态势,使用训练完成算法进行机动决策。记录无人机作战成功时的步长,根据所记录状态s画出作战双方轨迹图。无人机在第314个步长作战成功,图4为双方的作战轨迹图,红方为我方无人机,蓝方为敌机,图中可知,使用经过训练后的决策模型进行机动决策后,无人机能够快速近敌且实现对敌方的攻击。
Claims (2)
1.一种基于深度强化学习的无人机机动决策方法,其特征在于,包括以下步骤:
步骤S1:构建无人机机动模型;
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θt,θt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,为无人机航向角变化量;
步骤S2:描述无人机和敌机作战相对态势;
步骤S3:依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R;
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角;
步骤S4:构建SAC算法模型结构;
Actor神经网络πθ的输入为状态值st,输出为均值μ和方差σ,噪声τ从标准正态分布采样得到;由均值μ和方差σ和噪声τ生成动作at,并通过tanh函数将动作at限制在(-1,1)之间,动作生成过程如下所示:
πθ(st)=N(μ,σ2)
at=N(μ,σ2)=μ+σ*τ
at=tanh(at)
Soft-Q神经网络和的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络和与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数;
步骤S5:定义SAC算法模型参数并进行训练;
定义SAC算法模型参数,包括最大仿真步长N、训练回合episode、时间步长T、训练样本组数batch_size、折扣因子γ、网络学习率lr、熵的正则化系数α、目标熵值H0;
训练SAC算法模型,包括以下步骤:
步骤S51:初始化无人机和敌机作战相对态势,获取状态空间S的初始状态st;
步骤S53:将状态st输入至Actor网络,输出均值μ和方差σ,由步骤S4中动作生成过程得到动作at,无人机执行动作at后获取新状态st+1并根据步骤S3得到奖惩函数R奖惩值r(st,at),并将<st,at,st+1,r(st,at)>元组存储至经验池M;
步骤S54:当经验池M内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,其中Actor神经网络与Soft-Q神经网络的损失函数分别如下:
更新正则化系数α,损失函数为:
J(α)=E[-αlogπθ(at|st)-αH0]
步骤S55:判定是否作战成功,若是,则执行步骤S56;否则令st=st+1,转至执行步骤S53;
步骤S56:判定SAC算法是否收敛或是否达到训练回合,若是,则结束训练,保存训练结束后的模型;否则转至执行步骤S51;
步骤S6:初始化无人机和敌机作战态势,使用训练完成算法进行机动决策;
步骤S61:初始化作战双方的初始态势,获取初始状态st;
步骤S62:对状态s进行记录,将状态st输入至训练完成的SAC算法模型的Actor神经网络,输出动作at=πθ(st),无人机执行动作at,敌机执行随机动作,获取新状态st+1;
步骤S63:判定作战是否成功,若是,则结束;否则令st=st+1,并转至执行步骤S62;
步骤S64:记录无人机作战成功时的步长,根据所记录状态st画出作战双方轨迹图。
2.根据权利要求1所述的一种基于深度强化学习的无人机机动决策方法,其特征在于,所述batch_size=256,T=0.1s。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110364100.2A CN113093802B (zh) | 2021-04-03 | 2021-04-03 | 一种基于深度强化学习的无人机机动决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110364100.2A CN113093802B (zh) | 2021-04-03 | 2021-04-03 | 一种基于深度强化学习的无人机机动决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113093802A CN113093802A (zh) | 2021-07-09 |
CN113093802B true CN113093802B (zh) | 2022-08-02 |
Family
ID=76673493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110364100.2A Active CN113093802B (zh) | 2021-04-03 | 2021-04-03 | 一种基于深度强化学习的无人机机动决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113093802B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962012B (zh) * | 2021-07-23 | 2024-05-24 | 中国科学院自动化研究所 | 无人机对抗策略优化方法及装置 |
CN113721645A (zh) * | 2021-08-07 | 2021-11-30 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于分布式强化学习的无人机连续机动控制方法 |
CN113625569B (zh) * | 2021-08-12 | 2022-02-08 | 中国人民解放军32802部队 | 一种基于混合决策模型的小型无人机防控决策方法及系统 |
CN113741186B (zh) * | 2021-08-22 | 2023-08-18 | 西北工业大学 | 一种基于近端策略优化的双机空战决策方法 |
CN114237267B (zh) * | 2021-11-02 | 2023-11-24 | 中国人民解放军海军航空大学航空作战勤务学院 | 基于强化学习的飞行机动决策的辅助方法 |
CN114237303B (zh) * | 2021-11-17 | 2022-09-06 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于蒙特卡洛树搜索的无人机路径规划方法及装置 |
CN114510078B (zh) * | 2022-02-16 | 2022-12-09 | 南通大学 | 一种基于深度强化学习的无人机机动规避决策方法 |
CN115097853B (zh) * | 2022-05-18 | 2023-07-07 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于细粒度重复策略的无人机机动飞行控制方法 |
CN114895697B (zh) * | 2022-05-27 | 2024-04-30 | 西北工业大学 | 一种基于元强化学习并行训练算法的无人机飞行决策方法 |
CN115185288B (zh) * | 2022-05-27 | 2024-05-03 | 西北工业大学 | 一种基于sac算法的无人机分层飞行决策方法 |
CN115755956B (zh) * | 2022-11-03 | 2023-12-15 | 南京航空航天大学 | 一种知识与数据协同驱动的无人机机动决策方法与系统 |
CN116069056B (zh) * | 2022-12-15 | 2023-07-18 | 南通大学 | 一种基于深度强化学习的无人机战场目标跟踪控制方法 |
CN116489193B (zh) * | 2023-05-04 | 2024-01-23 | 中国人民解放军陆军工程大学 | 一种作战网络自适应组合方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9087451B1 (en) * | 2014-07-14 | 2015-07-21 | John A. Jarrell | Unmanned aerial vehicle communication, monitoring, and traffic management |
CN108021754A (zh) * | 2017-12-06 | 2018-05-11 | 北京航空航天大学 | 一种无人机自主空战决策框架及方法 |
CN108319286A (zh) * | 2018-03-12 | 2018-07-24 | 西北工业大学 | 一种基于强化学习的无人机空战机动决策方法 |
CN110673620A (zh) * | 2019-10-22 | 2020-01-10 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN110991545A (zh) * | 2019-12-10 | 2020-04-10 | 中国人民解放军军事科学院国防科技创新研究院 | 一种面向多智能体对抗的强化学习训练优化方法及装置 |
CN111859816A (zh) * | 2020-08-03 | 2020-10-30 | 南京航空航天大学 | 拟态物理法与ddqn结合的无人机集群空战决策方法 |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
CN112052511A (zh) * | 2020-06-15 | 2020-12-08 | 成都蓉奥科技有限公司 | 一种基于深度随机博弈的空战机动策略生成技术 |
CN112051863A (zh) * | 2020-09-25 | 2020-12-08 | 南京大学 | 一种无人机自主反侦察及躲避敌方攻击的方法 |
-
2021
- 2021-04-03 CN CN202110364100.2A patent/CN113093802B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9087451B1 (en) * | 2014-07-14 | 2015-07-21 | John A. Jarrell | Unmanned aerial vehicle communication, monitoring, and traffic management |
CN108021754A (zh) * | 2017-12-06 | 2018-05-11 | 北京航空航天大学 | 一种无人机自主空战决策框架及方法 |
CN108319286A (zh) * | 2018-03-12 | 2018-07-24 | 西北工业大学 | 一种基于强化学习的无人机空战机动决策方法 |
CN110673620A (zh) * | 2019-10-22 | 2020-01-10 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN110991545A (zh) * | 2019-12-10 | 2020-04-10 | 中国人民解放军军事科学院国防科技创新研究院 | 一种面向多智能体对抗的强化学习训练优化方法及装置 |
CN112052511A (zh) * | 2020-06-15 | 2020-12-08 | 成都蓉奥科技有限公司 | 一种基于深度随机博弈的空战机动策略生成技术 |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
CN111859816A (zh) * | 2020-08-03 | 2020-10-30 | 南京航空航天大学 | 拟态物理法与ddqn结合的无人机集群空战决策方法 |
CN112051863A (zh) * | 2020-09-25 | 2020-12-08 | 南京大学 | 一种无人机自主反侦察及躲避敌方攻击的方法 |
Non-Patent Citations (1)
Title |
---|
基于 Double Deep Q Network 的无人机隐蔽接敌策略;何金等;《电光与控制》;20200731;第27卷(第7期);第52-57页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113093802A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113093802B (zh) | 一种基于深度强化学习的无人机机动决策方法 | |
CN113095481B (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN112947562B (zh) | 一种基于人工势场法和maddpg的多无人机运动规划方法 | |
CN112230678B (zh) | 基于粒子群算法的三维无人机路径规划方法及规划系统 | |
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN112947592B (zh) | 一种基于强化学习的再入飞行器轨迹规划方法 | |
CN113900445A (zh) | 基于多智能体强化学习的无人机协同控制训练方法及系统 | |
CN113050686B (zh) | 一种基于深度强化学习的作战策略优化方法及系统 | |
CN114253296B (zh) | 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 | |
CN114330115B (zh) | 一种基于粒子群搜索的神经网络空战机动决策方法 | |
CN111240345A (zh) | 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
Bai et al. | UAV maneuvering decision-making algorithm based on twin delayed deep deterministic policy gradient algorithm | |
CN113282061A (zh) | 一种基于课程学习的无人机空中博弈对抗的解决方法 | |
CN113159266B (zh) | 基于麻雀搜索神经网络的空战机动决策方法 | |
CN113962012A (zh) | 无人机对抗策略优化方法及装置 | |
CN113625569B (zh) | 一种基于混合决策模型的小型无人机防控决策方法及系统 | |
CN114510078A (zh) | 一种基于深度强化学习的无人机机动规避决策方法 | |
CN113221444A (zh) | 一种面向空中智能博弈的行为模仿训练方法 | |
Yuan et al. | Research on UCAV maneuvering decision method based on heuristic reinforcement learning | |
CN116700079A (zh) | 基于ac-nfsp的无人机对抗占位机动控制方法 | |
Xianyong et al. | Research on maneuvering decision algorithm based on improved deep deterministic policy gradient | |
Chen et al. | Deep reinforcement learning based strategy for quadrotor UAV pursuer and evader problem | |
CN116243727A (zh) | 一种渐进式深度强化学习的无人载具对抗与避障方法 | |
CN117035435A (zh) | 一种动态环境下的多无人机任务分配与航迹规划优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |