CN117970952B - 无人机机动策略离线建模方法 - Google Patents
无人机机动策略离线建模方法 Download PDFInfo
- Publication number
- CN117970952B CN117970952B CN202410361846.1A CN202410361846A CN117970952B CN 117970952 B CN117970952 B CN 117970952B CN 202410361846 A CN202410361846 A CN 202410361846A CN 117970952 B CN117970952 B CN 117970952B
- Authority
- CN
- China
- Prior art keywords
- strategy
- network
- loss function
- model
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 78
- 238000004088 simulation Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 230000009471 action Effects 0.000 claims description 46
- 239000003795 chemical substances by application Substances 0.000 claims description 8
- 230000002787 reinforcement Effects 0.000 abstract description 18
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000010276 construction Methods 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种无人机机动策略离线建模方法,属于无人机智能体决策控制建模技术领域。针对传统强化学习算法环境探索成本高、专家经验利用不足的问题,该方法包括以下步骤:s1:采集多条任务轨迹,构建示例数据集,其中表示第n条飞行轨迹,为模型训练提供数据支持;s2:采用基于策略引导的隐式Q学习算法即PIQL算法构建网络模型和定义损失函数;s3:采用步骤s1中的采样数据,计算策略梯度和价值梯度,进而计算步骤s2中的损失函数;s4:更新步骤s2中的网络模型参数,重复s3,直到回报函数Rt收敛或达到最大仿真步长;s5:部署策略网络和策略引导网络构成机动策略模型,基于飞行仿真平台验证机动策略模型;完全利用离线数据,无需与环境交互。
Description
技术领域
本发明涉及一种无人机机动策略离线建模方法,属于无人机智能体决策控制建模技术领域。
背景技术
无人机空中博弈场景下,博弈双方如何根据当前态势选择精确有效的机动决策是重要的研究方向。基于数据驱动的无人机机动策略建模技术成为研究热点,并取得了诸多成果。在如Alpha Dogfight等赛事中,智能体均表现出超越人类专家的水平,利用智能体作为陪练对手提高训练效能成为了共识。目前机动策略建模方法中普遍基于在线强化学习算法,即智能体通过与环境交互采样数据,利用奖励函数引导策略收敛。然而在实际策略建模中,受限于模拟设备中飞机模型仿真加速比低、难以并行化等问题,采用在线建模方法的环境探索成本较高。利用离线数据的主流建模方法主要分为基于离线强化学习和模仿学习技术的两类。模仿学习算法受限于数据次优、分布不唯一等问题,策略模型表现不佳。因此离线强化学习技术成为当前主要研究方向,目前在无人机机动策略建模领域研究较少。
离线强化学习与强化学习相似,不同点在于强化学习通过与环境交互反复试错,并在探索(exploration)与利用(exploitation)之间进行平衡以达到更好的表现,而离线强化学习只能从静态的离线数据集来训练智能体,受到分布偏移(Distributional Shift)的严重影响,即对分布外(Out-of-Distribution , OOD)动作价值高估,导致选择实际价值低的动作。
为了解决OOD动作高估问题,主要有两类离线强化学习方法。一类基于离线策略强化学习算法(off-policy RL),加以策略约束正则项从而降低外推误差(extrapolationerror),如BCQ,TD3-BC等算法。另一类与模仿学习相似,只对分布内状态-动作重要性采样进行策略学习,如AWR,IQL,POR等。离线策略强化学习算法和模仿学习通常属于在线(on-line)算法需要与环境交互,不能实现仅依靠数据完成建模,时间和资源成本高。
发明内容
本发明的目的在于针对传统强化学习算法环境探索成本高、专家经验利用不足的问题,提出一种无人机机动策略离线建模方法,该方法能够完全利用离线数据,无需与环境交互,降低了成本。
为了解决上述问题,本申请的无人机机动策略离线建模方法是通过以下技术方案实现的:
无人机机动策略离线建模方法,其特殊之处在于:包括以下步骤:
s1:采集多条任务轨迹,构建示例数据集/>,其中/>表示第n条飞行轨迹,为模型训练提供数据支持;
s2:采用基于策略引导的隐式Q学习算法即PIQL算法构建网络模型和定义损失函数;
s3:采用步骤s1中的采样数据,计算策略梯度和价值梯度,进而计算步骤s2中的损失函数;
s4:更新步骤s2中的网络模型参数,重复s3,直到回报函数Rt收敛或达到最大仿真步长;
s5:部署策略网络和策略引导网络构成机动策略模型,基于飞行仿真平台验证机动策略模型;
s6:输出机动策略模型。
优选的,所述步骤s1中,所述任务轨迹为人人博弈或人机博弈数据获得状态-动作元组,其中r为奖励函数;
优选的,所述步骤s2中的PIQL算法,将红方飞机自身状态与红蓝双机相对态势解耦,策略模型分解为策略引导网络和策略网络;
所述策略引导网络预测下一时刻相对态势,作为策略网络的部分输入,所述策略网络根据自身状态和预测的相对态势执行机动动作;
优选的,所述步骤s2中的网络模型包括策略网络,策略引导网络,价值网络/>,动作价值网络,所述动作价值网络包含当前网络/>和目标网络/>,
其中a表示动作,s表示当前时刻状态,,/>为智能体自身状态,/>为博弈双方相对态势,/>表示下一时刻状态,为策略引导网络输出/>与/>的拼接,如,/>,/>,/>,/>,/>代表网络参数;
优选的,所述步骤s2中的损失函数包括策略损失函数、策略引导损失函数、价值损失函数和动作价值损失函数;
所述策略损失函数表示为:
,
策略损失函数基于隐式优势权重回归(AWR)技术构造,用以求解最大化动作价值的动作,的好坏与/>正相关,/>越大说明/>下的/>越好,损失函数就是去更新策略网络和动作价值网络逼近这个最好的结果,此时策略网络产生最大动作价值动作/>,同时使采样动作符合示例策略分布;
所述策略引导损失函数表示为:
,
策略引导结合AWR和min-max理论,使策略引导网络预测下一步状态倾向于对己方威胁状态, 是衡量状态/>的好坏,而损失函数里/>这个负号表示让预测的状态/>不要是好的,也就是对己方有威胁;
所述价值损失函数表示为:,
其中,通过训练得到状态价值的最优估计,即为动作价值期望上界;
动作价值损失函数表示为:
,/>为折扣系数,约束当前策略随机采样的动作价值上界;
优选的,所述步骤s3中,所述策略梯度的计算方法为:,;
所述价值梯度的计算方法为:,/>;
计算出策略梯度后,计算相应的策略损失函数和策略引导损失函数,
计算出价值梯度后,计算相应的状态价值损失函数和动作价值损失函数;
优选的,所述步骤s4中更新步骤s2中的网络模型参数,所述网络模型参数包括初始化网络参数,/>,/>,/>,/>和初始化超参数/>,其中代表学习率,/>为折扣系数,/>为算法中超参数;
优选的,所述步骤s4中的回报函数Rt表示为,回报函数Rt收敛是指Rt不再继续稳定增长;
离线强化学习与强化学习相似,状态转移过程表现为马尔可夫决策过程(MDP),,S表示状态空间,A表示动作空间,/>表示初始状态分布概率,/>表示环境状态转移概率,/>表示奖励函数,/>表示折扣系数;策略目标为获得回合最大回报,
;
优选的,所述步骤s5中的机动策略模型为:
;
优选的,所述步骤s6机动策略模型输出为飞机升降舵、副翼、方向舵和油门指令,即;
自身状态定义为,其中/>、/>、/>表示飞机姿态角,/>、/>表示当前角速度,/>表示当前高度,/>表示速度矢量;
双方相对态势定义为,其中/>、/>分别表示NED坐标系下的相对速度矢量和相对位置矢量,/>表示方位角,/>表示目标进入角。
本申请将策略引导与极小极大定理相结合,提出了PIQL算法用来实现离线的无人机机动策略建模,完全依靠离线数据完成,无需与环境交互,降低成本。价值评估和策略提取解耦,提高了模型训练的稳定性。基于极小极大定理,策略学习时最小化引导态势的价值,最大化执行策略的动作价值,从而提高模型部署的博弈智能水平。
本申请提出了基于策略引导的隐式Q学习算法,算法与博弈理论中极小极大定理相结合,将传统策略网络分解为状态引导网络和执行网络,提高策略模型面对分布外数据的泛化性。模型训练中构建价值网络和动作价值网络,将状态作为其随机变量,并将价值的估计期望上界作为最优动作价值,利用优势权重回归隐式地优化策略网络模型,将引导价值和策略动作价值作为正则项,实现博弈过程价值和动作价值的极小极大化。
附图说明
图1:本发明建模流程图;
图2:回报函数的仿真结果即回报学习曲线;
图3:初始条件为红方占据高度优势的红方与蓝方简单目标博弈的态势图A;
图4:初始条件为红方占据高度优势的红方与蓝方简单目标博弈的态势图B;
图5:初始条件为红方在蓝方后半球绝对优势的红方与蓝方简单目标博弈的态势图;
图6:初始条件为双方均势相向飞行的红方与蓝方简单目标博弈的态势图;
图7:初始条件双机同向飞行,蓝方占据高度优势,红方能量劣势的双方同策略的自博弈态势图;
图8:初始条件为双方同向且能量相同的双方同策略的自博弈态势图;
图9:初始条件为蓝方占据角度优势的双方同策略的自博弈态势图;
图10:初始条件为蓝方位红方后半球的双方同策略的自博弈态势图。
具体实施方式
以下参照附图,给出本发明的具体实施方式,用来对本发明的构成进行进一步说明。
实施例1。如图1所示的无人机机动策略离线建模方法,包括以下步骤:
s1:采集多条任务轨迹,构建示例数据集/>,其中/>表示第n条飞行轨迹,为模型训练提供数据支持;
s2:采用基于策略引导的隐式Q学习算法即PIQL算法构建网络模型和定义损失函数;
s3:采用步骤s1中的采样数据,计算策略梯度和价值梯度,进而计算步骤s2中的损失函数;
s4:更新步骤s2中的网络模型参数,重复s3,直到回报函数Rt收敛或达到最大仿真步长;
s5:部署策略网络和策略引导网络构成机动策略模型,基于飞行仿真平台验证机动策略模型;
s6:输出机动策略模型。
其中,所述步骤s1中,所述任务轨迹为人人博弈或人机博弈数据获得状态-动作元组,其中r为奖励函数;
其中,所述步骤s2中的PIQL算法,将红方飞机自身状态与红蓝双机相对态势解耦,策略模型分解为策略引导网络和策略网络;
所述策略引导网络预测下一时刻相对态势,作为策略网络的部分输入,所述策略网络根据自身状态和预测的相对态势执行机动动作;
其中,所述步骤s2中的网络模型包括策略网络,策略引导网络,价值网络/>,动作价值网络,所述动作价值网络包含当前网络/>和目标网络/>,
其中a表示动作,s表示当前时刻状态,,/>为智能体自身状态,/>为博弈双方相对态势,/>表示下一时刻状态,为策略引导网络输出/>与/>的拼接,如,/>,/>,/>,/>,/>代表网络参数;
其中,所述步骤s2中的损失函数包括策略损失函数、策略引导损失函数、价值损失函数和动作价值损失函数;
所述策略损失函数表示为:
,
策略损失函数基于隐式优势权重回归(AWR)技术构造,用以求解最大化动作价值的动作,的好坏与/>正相关,/>越大说明/>下的/>越好,损失函数就是去更新策略网络和动作价值网络逼近这个最好的结果,此时策略网络产生最大动作价值动作/>,同时使采样动作符合示例策略分布;
所述策略引导损失函数表示为:
,
策略引导结合AWR和min-max理论,使策略引导网络预测下一步状态倾向于对己方威胁状态, 是衡量状态/>的好坏,而损失函数里/>这个负号表示让预测的状态/>不要是好的,也就是对己方有威胁;
所述价值损失函数表示为:,
其中,通过训练得到状态价值的最优估计,即为动作价值期望上界;
动作价值损失函数表示为:
,/>为折扣系数,约束当前策略随机采样的动作价值上界;
其中,所述步骤s3中,所述策略梯度的计算方法为:
,/>;
所述价值梯度的计算方法为:,/>;
计算出策略梯度后,计算相应的策略损失函数和策略引导损失函数,
计算出价值梯度后,计算相应的状态价值损失函数和动作价值损失函数;
其中,所述步骤s4中更新步骤s2中的网络模型参数,所述网络模型参数包括初始化网络参数,/>,/>,/>,/>和初始化超参数/>,其中代表学习率,/>为折扣系数,/>为算法中超参数;
其中,所述步骤s4中的回报函数Rt表示为,回报函数Rt收敛是指Rt不再继续稳定增长;
离线强化学习与强化学习相似,状态转移过程表现为马尔可夫决策过程(MDP),,S表示状态空间,A表示动作空间,/>表示初始状态分布概率,/>表示环境状态转移概率,/>表示奖励函数,/>表示折扣系数;策略目标为获得回合最大回报,
;
其中,所述步骤s5中的机动策略模型为:
;
其中,所述步骤s6机动策略模型输出为飞机升降舵、副翼、方向舵和油门指令,即;
自身状态定义为,其中/>、/>、/>表示飞机姿态角,/>、/>表示当前角速度,/>表示当前高度,/>表示速度矢量;
双方相对态势定义为,其中/>、/>分别表示NED坐标系下的相对速度矢量和相对位置矢量,/>表示方位角,/>表示目标进入角。
实施例2。本实施例是对机动策略模型的系统仿真,实验数据由模拟环境下,机机博弈获得,双方均由基于PID控制器的简单规则模型控制,共采集40局机机博弈数据构成约4×105条的示例数据集。
A、实验环境设计
机动策略模型输出为飞机升降舵、副翼、方向舵和油门指令,即。自身状态定义为/>,其中/>、/>、/>表示飞机姿态角,/>、/>表示当前角速度,/>表示当前高度,/>表示速度矢量。双方相对态势定义为,其中/>、/>分别表示NED坐标系下的相对速度矢量和相对位置矢量,/>表示方位角,/>表示目标进入角。
主要考虑角度优势、能量优势和满足发射条件等方面,因此设计奖励函数为:,
,其中/>代表权重,奖励函数/>为t时刻的奖励函数。
此外,还应考虑飞机稳定飞行和保证在指定空域飞行的限制条件,因此引入边界惩罚项,避免飞机诱导坠地等错误决策。
模型测试时,红蓝双方初始高度1-9km,初始相对水平距离±10km以内,初始速度150-300m/s,初始任意姿态,仿真步长20ms,每回合5min。
B、仿真结果
PIQL算法中所有网络结构均采用3隐藏层全连接结构,隐藏层激活函数为均为ReLu函数,每个隐藏层神经元为256个,策略网络输出层激活函数为tanh函数。PIQL算法训练中各学习率均为1×10-4,为10,/>为0.9,/>为0.99,/>为0.95。
训练共2×105步,相较于在线强化学习,由于离线强化学习采样离线数据集,各损失函数学习曲线收敛趋势明显。价值网络约50k步后收敛,其输出值为动作价值期望的上界。
图2给出了回报函数的仿真结果,每1000步训练后进行一次模型评估,仿真对比了POR、BC、TD3+BC、IQL算法,结果显示本申请PIQL算法表现出较高的学习效率,并获得最高回报。由于博弈对手行为的不完备性,IQL仅对分布内数据进行重要性采样加权学习,泛化能力较差;TD3-BC算法当BC的权重设置较大时才能获得与BC算法相似的回报。
为了验证机动策略的性能,图3-图6和图7-图10分别给出了使用基于PIQL策略无人机博弈态势图。图3-图6为红方与蓝方简单目标博弈的态势图,图3、图4初始条件为红方占据高度优势,红方选择低yo-yo机动,调转机头指向蓝方并保持优势位置应对;图5初始条件为红方在蓝方后半球绝对优势,红方速度较高,选择连续压坡度保持目视蓝方并减速,占据有利位置;图6初始条件为双方均势相向飞行,红方急转转后速度过快,以滚筒机动目视蓝方并减速,方位角随速度差减小而减小。
图7-图10为双方同策略的自博弈态势图,图7初始条件双机同向飞行,蓝方占据高度优势,红方能量劣势,选择规避,当航线拉开后双方进入双环战;图8初始条件为双方同向且能量相同,直接进入双环战,保持均势;图9初始条件为蓝方占据角度优势,红方选择垂直平面机动,蓝方被动盘旋爬升,红方利用能量转换缩小蓝方优势;图10初始条件为蓝方位红方后半球,红方选择低yo-yo摆脱,高速拉起应对。
通过上述比较分析,说明基于PIQL算法的机动策略模型具有一定智能性,能够判断态势。
Claims (7)
1.无人机机动策略离线建模方法,其特征在于:包括以下步骤:
s1:采集多条任务轨迹,构建示例数据集/>,其中表示第n条飞行轨迹,为模型训练提供数据支持;
s2:采用基于策略引导的隐式Q学习算法即PIQL算法构建网络模型和定义损失函数;
所述步骤s2中的PIQL算法,将红方飞机自身状态与红蓝双机相对态势解耦,策略模型分解为策略引导网络和策略网络;
所述策略引导网络预测下一时刻相对态势,作为策略网络的部分输入,所述策略网络根据自身状态和预测的相对态势执行机动动作;
所述步骤s2中的网络模型包括策略网络,策略引导网络/>,价值网络/>,动作价值网络,所述动作价值网络包含当前网络/>和目标网络,
其中a表示动作,s表示当前时刻状态,,/>为智能体自身状态,/>为博弈双方相对态势,/>表示下一时刻状态,为策略引导网络输出/>与/>的拼接;
所述步骤s2中的损失函数包括策略损失函数、策略引导损失函数、价值损失函数和动作价值损失函数;
所述策略损失函数表示为:;
所述策略引导损失函数表示为:;
所述价值损失函数表示为:,
其中,通过训练得到状态价值的最优估计,即为动作价值期望上界;
动作价值损失函数表示为:
,/>为折扣系数,约束当前策略随机采样的动作价值上界;
s3:采用步骤s1中的采样数据,计算策略梯度和价值梯度,进而计算步骤s2中的损失函数;
s4:更新步骤s2中的网络模型参数,重复s3,直到回报函数Rt收敛或达到最大仿真步长;
s5:部署策略网络和策略引导网络构成机动策略模型,基于飞行仿真平台验证机动策略模型;
s6:输出机动策略模型。
2.根据权利要求1所述的无人机机动策略离线建模方法,其特征在于:所述步骤s1中,所述任务轨迹为人人博弈或人机博弈数据获得状态-动作元组,其中r为奖励函数。
3.根据权利要求1或2所述的无人机机动策略离线建模方法,其特征在于:所述步骤s3中,所述策略梯度的计算方法为:,/>;
所述价值梯度的计算方法为:,/>;
计算出策略梯度后,计算相应的策略损失函数和策略引导损失函数,
计算出价值梯度后,计算相应的状态价值损失函数和动作价值损失函数。
4.根据权利要求3所述的无人机机动策略离线建模方法,其特征在于:所述步骤s4中更新步骤s2中的网络模型参数,所述网络模型参数包括初始化网络参数,/>,/>,/>,/>和初始化超参数/>,其中/>代表学习率,/>为折扣系数,/>为算法中超参数。
5.根据权利要求3所述的无人机机动策略离线建模方法,其特征在于:所述步骤s4中的回报函数Rt表示为,回报函数Rt收敛是指Rt不再继续稳定增长。
6.根据权利要求3所述的无人机机动策略离线建模方法,其特征在于:所述步骤s5中的机动策略模型为:。
7.根据权利要求3所述的无人机机动策略离线建模方法,其特征在于:所述步骤s6机动策略模型输出为飞机升降舵、副翼、方向舵和油门指令,即;
自身状态定义为,其中/>、/>、/>表示飞机姿态角,/>、/>表示当前角速度,/>表示当前高度,/>表示速度矢量;
双方相对态势定义为,其中/>、/>分别表示NED坐标系下的相对速度矢量和相对位置矢量,/>表示方位角,/>表示目标进入角。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410361846.1A CN117970952B (zh) | 2024-03-28 | 2024-03-28 | 无人机机动策略离线建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410361846.1A CN117970952B (zh) | 2024-03-28 | 2024-03-28 | 无人机机动策略离线建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117970952A CN117970952A (zh) | 2024-05-03 |
CN117970952B true CN117970952B (zh) | 2024-06-04 |
Family
ID=90846337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410361846.1A Active CN117970952B (zh) | 2024-03-28 | 2024-03-28 | 无人机机动策略离线建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117970952B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148024A (zh) * | 2020-08-20 | 2020-12-29 | 中国人民解放军海军航空大学 | 基于自适应伪谱法的无人机实时在线航迹规划方法 |
CN113258989A (zh) * | 2021-05-17 | 2021-08-13 | 东南大学 | 一种使用强化学习获得无人机中继轨迹的方法 |
CN114169234A (zh) * | 2021-11-30 | 2022-03-11 | 广东工业大学 | 一种无人机辅助移动边缘计算的调度优化方法及系统 |
CN114237267A (zh) * | 2021-11-02 | 2022-03-25 | 中国人民解放军海军航空大学航空作战勤务学院 | 基于强化学习的飞行机动决策的辅助方法 |
CN117648548A (zh) * | 2023-12-01 | 2024-03-05 | 中国人民解放军国防科技大学 | 基于离线-在线混合强化学习的智能决策方法和装置 |
-
2024
- 2024-03-28 CN CN202410361846.1A patent/CN117970952B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148024A (zh) * | 2020-08-20 | 2020-12-29 | 中国人民解放军海军航空大学 | 基于自适应伪谱法的无人机实时在线航迹规划方法 |
CN113258989A (zh) * | 2021-05-17 | 2021-08-13 | 东南大学 | 一种使用强化学习获得无人机中继轨迹的方法 |
CN114237267A (zh) * | 2021-11-02 | 2022-03-25 | 中国人民解放军海军航空大学航空作战勤务学院 | 基于强化学习的飞行机动决策的辅助方法 |
CN114169234A (zh) * | 2021-11-30 | 2022-03-11 | 广东工业大学 | 一种无人机辅助移动边缘计算的调度优化方法及系统 |
CN117648548A (zh) * | 2023-12-01 | 2024-03-05 | 中国人民解放军国防科技大学 | 基于离线-在线混合强化学习的智能决策方法和装置 |
Non-Patent Citations (5)
Title |
---|
MPC-Based UAV Navigation for Simultaneous Solar-Energy Harvesting and Two-Way Communications;Hoang Duong Tuan,等;IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS;20211130;第39卷(第11期);3459-3474 * |
基于多步Q学习的模具制造项目群随机调度算法;张沙清,等;中国机械工程;20090630;第20卷(第12期);1439-1445 * |
基于强化学习的无人机安全通信轨迹在线优化策略;郑思远,崔 苗,张广驰;广东工业大学学报;20210731;第38卷(第4期);59-64 * |
越南海军无人机新发展与作战运用研究;丁伟锋,王肖飞,李冬;飞航导弹;20210331(第3期);43-47 * |
面向体系仿真的智能无人机集群作战建模总体框架研究;邹立岩,等;军事运筹与系统工程;20210331;第35卷(第1期);64-72 * |
Also Published As
Publication number | Publication date |
---|---|
CN117970952A (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109343341B (zh) | 一种基于深度强化学习的运载火箭垂直回收智能控制方法 | |
CN110531786B (zh) | 基于dqn的无人机机动策略自主生成方法 | |
CN113791634B (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN112034888B (zh) | 一种固定翼无人机自主控制协作策略训练方法 | |
CN111538241B (zh) | 一种平流层飞艇水平轨迹智能控制方法 | |
CN113050686B (zh) | 一种基于深度强化学习的作战策略优化方法及系统 | |
CN114840020A (zh) | 一种基于改进鲸鱼算法的无人机飞行轨迹规划方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN111027143A (zh) | 一种基于深度强化学习的舰载机进近引导方法 | |
CN113625740B (zh) | 一种基于迁移学习鸽群优化的无人机空战博弈方法 | |
CN113282061A (zh) | 一种基于课程学习的无人机空中博弈对抗的解决方法 | |
CN115454115B (zh) | 基于混合灰狼-粒子群算法的旋翼无人机路径规划方法 | |
CN114063644B (zh) | 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法 | |
CN115903865A (zh) | 一种飞行器近距空战机动决策实现方法 | |
CN115755956B (zh) | 一种知识与数据协同驱动的无人机机动决策方法与系统 | |
CN115688268A (zh) | 一种飞行器近距空战态势评估自适应权重设计方法 | |
CN116697829A (zh) | 一种基于深度强化学习的火箭着陆制导方法及系统 | |
CN113671825A (zh) | 一种基于强化学习的机动智能决策规避导弹方法 | |
CN116820134A (zh) | 基于深度强化学习的无人机编队保持控制方法 | |
CN113625569A (zh) | 一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及系统 | |
Xianyong et al. | Research on maneuvering decision algorithm based on improved deep deterministic policy gradient | |
CN114815891A (zh) | 一种基于per-idqn的多无人机围捕战术方法 | |
CN117970952B (zh) | 无人机机动策略离线建模方法 | |
CN112231845A (zh) | 一种平流层飞艇高度控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |