CN116069056A - 一种基于深度强化学习的无人机战场目标跟踪控制方法 - Google Patents

一种基于深度强化学习的无人机战场目标跟踪控制方法 Download PDF

Info

Publication number
CN116069056A
CN116069056A CN202211612915.9A CN202211612915A CN116069056A CN 116069056 A CN116069056 A CN 116069056A CN 202211612915 A CN202211612915 A CN 202211612915A CN 116069056 A CN116069056 A CN 116069056A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
enemy
network
tar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211612915.9A
Other languages
English (en)
Other versions
CN116069056B (zh
Inventor
袁银龙
徐沛安
程赟
华亮
李俊红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202211612915.9A priority Critical patent/CN116069056B/zh
Publication of CN116069056A publication Critical patent/CN116069056A/zh
Application granted granted Critical
Publication of CN116069056B publication Critical patent/CN116069056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供了一种基于深度强化学习的无人机战场目标跟踪控制方法,属于无人机技术领域;解决了无人机无法自主进行战场目标跟踪控制的难题。其技术方案为:包括以下步骤:S1、根据无人机自身的传感器系统检测敌我态势;S2、利用深度学习分析敌方态势得到需要跟踪的敌方目标信息;S3、根据敌方的态势信息利用深度强化学习进行实时的跟踪控制。本发明的有益效果为:本发明能够令无人机完成对敌方目标的自主跟踪控制,提高无人机在战场上的利用效能,有利于提升无人机作战能力。

Description

一种基于深度强化学习的无人机战场目标跟踪控制方法
技术领域
本发明涉及无人机技术领域,尤其涉及一种基于深度强化学习的无人机战场目标跟踪控制方法。
背景技术
当今时代,军事智能化深刻影响着未来作战制胜机理、作战规则及作战方式方法等。无人机技术已经广泛用于军事作战中,人机协同作战,集群自主作战等。随着现代战场环境复杂多变,人工操作很难完成复杂的战场目标感知与跟踪。无人机的自主跟踪控制能力在军事作战中起着至关重要的作用。
一些传统深度学习算法例如faster-rcnn在检测敌方无人机方面具有精度较高的检测性能,具有通用性与鲁棒性。但是由于faster-rcnn算法性能方面远不如yolo算法,适用与静态无人机的检测,无法用于高速,实时的无人机检测。传统的确定性深度学习算法例如DDPG,能够输出确定的无人机动作值,控制无人机飞行,但是这类方法存在过估计问题,限制了无人机的训练。难以适用于环境复杂的战场。
发明内容
本发明的目的在于提供一种基于深度强化学习的无人机战场目标跟踪控制方法,首先根据无人机自身的传感器系统检测敌我态势,再利用深度学习,根据获得的敌方态势确认跟踪目标信息,最后根据敌方的态势信息利用深度强化学习进行实时的跟踪控制。本发明赋予无人机自主跟踪战场目标的能力,人机协同作战,自主作战等,提高作战效能。
本发明是通过如下措施实现的:一种基于深度强化学习的无人机战场目标跟踪控制方法,包括以下步骤:
步骤一、根据无人机自身的传感器系统检测敌我态势;
步骤二、利用深度学习分析敌方态势得到需要跟踪的敌方目标信息;
步骤三、根据敌方的态势信息利用深度强化学习进行实时的跟踪控制。
进一步地,所述步骤一中,通过自身传感器系统周期性感知我方无人机态势信息sa,敌方态势信息sb,其中
Figure BDA0004000803580000011
v为我方无人机的速度信息,ph为我方无人机高度态势信息,κ,ω,
Figure BDA0004000803580000012
分别为无人机航向角,横滚角,俯仰角态势信息。其中,sb为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息。
进一步地,所述步骤二包含如下步骤:
2-1)、搭建目标检测深度学习神经网络π,输入为(N×N×3)N=416的图片ν,输出三个不同尺度的特征图ζ=π(ν).
ζ=N×N×[3×(classes+σ+confidence)]N=13,26,52 (1)
其中N为特征图的尺寸大小;classes为目标检测的种类;σ={σxywh},其中σxy为预测框中心坐标点的偏移量,σwh为预测框宽高的缩放比;confidence为目标置信度。
a)根据神经网络输出的σ绘制出所有的预测框,利用输出的confidence筛选出置信度大于阈值的预测框集合A。
b)利用经过非极大抑制以后的预测框集合X绘制出最终预测框。
Figure BDA0004000803580000021
其中A为所有预测框的集合;X为经过非极大抑制后预测框的集合;Υ,ε分别为置信度与
Figure BDA0004000803580000022
的阈值;w,h为预测框的宽和高。
2-2)、根据我方无人机获取的敌方视频流态势信息sb,利用步骤S21搭建好的神经网络,输出敌方位置态势信息
Figure BDA0004000803580000023
其中,
Figure BDA0004000803580000024
ix为敌方目标x轴像素坐标值,iy为敌方目标y轴像素坐标值;iw为检测到的敌方目标预测框的宽,ih为检测到的敌方目标预测框的高,d为己方无人机到敌方目标的距离。d计算公式为:
Figure BDA0004000803580000025
其中N为单位时间内检测的次数,d满足以
Figure BDA0004000803580000026
为均值,σ为标准差的正态分布。F为摄像机的焦距,P为敌方目标的像素宽度,W为敌方目标的实际宽度。
2-3)、:整合我方无人机与敌方态势信息
Figure BDA0004000803580000027
便于进行步骤S3所述的跟踪控制。其中
Figure BDA0004000803580000028
其中ph为我方无人机高度态势信息。κ,ω,
Figure BDA0004000803580000029
分别为无人机航向角,横滚角,俯仰角态势信息。fxy为敌方目标实际位置与敌方目标理想位置的误差,ixy为敌方目标中心点坐标,Ixy为敌方目标理想中心点坐标。fd为理想距离dtar与实际距离d之间的误差。
进一步地,所述步骤三中包含如下步骤:
3-1):构建双延迟深度确定性策略梯度网络,具体包括:构建actor网络μ;tar_actor网络μ′,其网络权重参数分别为:θμμ′。构建critic1网络Q1,critic2网络;tar_critic1网络Q1′,tar_critic2网络Q2′。其网络权重参数分别为
Figure BDA00040008035800000210
3-2):初始化actor网络μ,tar_actor网络μ′,critic1网络Q1,critic2网络Q2,tar_critic1网络Q1′,tar_critic2网络Q2′,包括其网络权重参数θμ,θμ′
Figure BDA00040008035800000211
其中θμ′
Figure BDA00040008035800000212
分别为θμ
Figure BDA00040008035800000213
的深拷贝;初始化网络超参数:折扣因子γ,批次大小batch,经验池容量max_capacity,replay buffer启动阈值start_size,延迟更新频率delay_update;
3-3):初始化任务环境,获得步骤2所得到的敌方无人机综合态势信息
Figure BDA00040008035800000214
3-4):根据敌方无人机综合态势信息
Figure BDA00040008035800000215
输入actor网络μ,输出我方无人机动作值
Figure BDA00040008035800000216
其中ε为衰减的随机噪声;根据a将控制指令发送并控制无人机飞行,重新检测步骤2所得到的敌方无人机综合态势信息
Figure BDA00040008035800000217
3-5):利用经验回放技巧,将数据
Figure BDA00040008035800000218
a,r,
Figure BDA00040008035800000219
存放进经验池,其中
Figure BDA00040008035800000220
为当前状态,a为当前状态的动作值,r为当前状态取得的奖励,
Figure BDA00040008035800000221
为下一个状态;当经验池容量大于start_size跳转
3-6)学习,从经验池取出的数据大小为batch;否则跳转到3-4)重新收集敌方无人机数据,
Figure BDA0004000803580000031
3-6):tar_actor网络输入为敌方无人机状态
Figure BDA0004000803580000032
输出为动作
Figure BDA0004000803580000033
其中ε0为高斯噪声:服从正态分布;tar_critic1网络,tar_critic2网络的输入为
Figure BDA0004000803580000034
输出分别为batch_q1′,batch_q2′;
3-7):通过奖励batch_r和tar_critic1网络与tar_critic2网络输出的最小batch_q1′,batch_q2′拟合y,其中y定义为:
y=batch_r+γmin(batch_q1′,batch_q2′) (5)
其中0≤γ≤1;
3-8):更新critic1,critic2,网络权重参数
Figure BDA0004000803580000035
方式如下:
Figure BDA0004000803580000036
3-9):delay_update更新actor网络权重参数θμ,tar_critic1,tar_critic2,tar_actor网络权重参数
Figure BDA0004000803580000037
θμ′方式如下:
Figure BDA0004000803580000038
其中τ为衰减率(decay),τ的取值范围为0≤τ≤1
3-10):判断一局游戏是否结束,如游戏未结束跳转到3-4)继续进行训练
Figure BDA0004000803580000039
判断整个训练是否结束,若训练未结束则跳转到3-3),否贼跳转到3-11);
3-11):结束训练。
与现有技术相比,本发明的有益效果为:
(1)本发明引入yolo深度学习算法,有效权衡了传统网络检测精度与检测速度问题,不仅解决了传统网络小目标物体检测的问题,还具有相当可靠的检测速度与精度,适用于实时复杂的战场环境。
(2)本发明引入双Critic网络方法,有效解决了传统深度强化学习网络过估计的问题,而且利用延迟更新和目标网络添加噪声的方法,使深度强化学习神经网络的训练更加稳定和高效。
(3)本发明引入Actor_Critic网络结构,输出连续的动作值,精准控制无人机自主进行战场目标的感知与跟踪控制,有效解决了因战场目标变速而引起的目标丢失。
(4)本发明的方法适用不同战场目标的感知与跟踪控制;态势信息获取、深度学习神经网络的构建、深度强化学习神经网络的构建及其应用,具有普遍性和可靠性,经过相应的训练能直接投入战场使用。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明提供的基于深度强化学习的无人机战场目标跟踪控制方法的整体流程图。
图2为本发明提供的基于深度强化学习的无人机战场目标跟踪控制方法的态势信息图。
图3为本发明提供的基于深度强化学习的无人机战场目标跟踪控制方法深度学习确认目标信息流程图。
图4为本发明提供的基于深度强化学习的无人机战场目标跟踪控制方法深度强化学习模型结构图。
图5为本发明提供的基于深度强化学习的无人机战场目标跟踪控制方法深度强化学习训练流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于深度强化学习的无人机战场目标跟踪控制方法,其中包括以下步骤:
步骤1、根据无人机自身的传感器系统检测敌我态势;
步骤2、利用深度学习分析敌方态势得到需要跟踪的敌方目标信息;
步骤3、根据敌方的态势信息利用深度强化学习进行实时的跟踪控制。
参见图1至图5,本发明提供其技术方案实施步骤如下:
步骤1:如图2所示,通过自身传感器系统周期性感知我方无人机态势信息sa,敌方态势信息sb,其中
Figure BDA0004000803580000041
v为我方无人机的速度信息,ph为我方无人机高度态势信息,κ,ω,
Figure BDA0004000803580000042
分别为无人机航向角,横滚角,俯仰角态势信息。其中,sb为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息。
步骤2:如图3所示,搭建目标检测深度学习神经网络π,输入为(416×416×3)的图片v,输出三个不同尺度的特征图ζ=π(ν).
ζ=N×N×[3×(classes+σ+confidence)]N=13,26,52 (1)
其中N为特征图的尺寸大小;classes=1为目标检测的种类;σ={σxywh},其中σxy为预测框中心坐标点的偏移量,σwh为预测框宽高的缩放比;confidence为目标置信度。
a)根据神经网络输出的σ绘制出所有的预测框,利用输出的confidence筛选出置信度大于阈值的预测框集合A。
b)利用经过非极大抑制以后的预测框集合X绘制出最终预测框。
Figure BDA0004000803580000051
其中A为所有预测框的集合;X为经过非极大抑制后预测框的集合;Υ,ε分别为置信度与
Figure BDA0004000803580000052
的阈值;w,h为预测框的宽和高。
2-2)、根据我方无人机获取的敌方视频流态势信息sb,利用步骤S21搭建好的神经网络,输出敌方位置态势信息
Figure BDA0004000803580000053
其中,
Figure BDA0004000803580000054
ix,iy为敌方中心点坐标即预测框中心点坐标。iw,ih为敌方的宽和高即预测框的宽和高,d为己方无人机到敌方目标的距离。d计算公式为:
Figure BDA0004000803580000055
其中N为单位时间内检测的次数,d满足以
Figure BDA0004000803580000056
为均值,σ为标准差的正态分布。F为摄像机的焦距,P为敌方目标的像素宽度,W为敌方目标的实际宽度。
2-3)、:整合我方无人机与敌方态势信息
Figure BDA0004000803580000057
便于进行步骤S3所述的跟踪控制。其中
Figure BDA0004000803580000058
其中ph为我方无人机高度态势信息。κ,ω,
Figure BDA0004000803580000059
分别为无人机航向角,横滚角,俯仰角态势信息。fxy为敌方目标实际位置与敌方目标理想位置的误差,ixy为敌方目标中心点坐标,Ixy=(128,72)为敌方目标理想中心点坐标。fd为理想距离dtar=400cm与实际距离d之间的误差。
步骤3;如图4,如图5所示。深度强化学习神经网络的搭建与训练如下:3-1):构建双延迟深度确定性策略梯度网络,具体包括:构建actor网络μ;tar_actor网络μ′,其网络权重参数分别为:θμμ′。构建critic1网络Q1,critic2网络;tar_critic1网络Q1′,tar_critic2网络Q2′。其网络权重参数分别为
Figure BDA00040008035800000510
3-2):初始化actor网络μ,tar_actor网络μ′,critic1网络Q1,critic2网络Q2,tar_critic1网络Q1′,tar_critic2网络Q2′,包括其网络权重参数θμ,θμ′
Figure BDA00040008035800000511
其中θμ′
Figure BDA00040008035800000512
分别为θμ
Figure BDA00040008035800000513
的深拷贝;初始化网络超参数:折扣因子γ=0.99,批次大小batch=128,经验池容量max_capacity=5000,replay buffer启动阈值start_size=2000,延迟更新频率delay_update=2;
3-3):初始化任务环境,获得步骤2所得到的敌方无人机综合态势信息
Figure BDA00040008035800000514
3-4):根据敌方无人机综合态势信息
Figure BDA00040008035800000515
输入actor网络μ,输出我方无人机动作值
Figure BDA00040008035800000516
其中ε为衰减的随机噪声;根据a将控制指令发送并控制无人机飞行,重新检测步骤2所得到的敌方无人机综合态势信息
Figure BDA00040008035800000517
3-5):利用经验回放技巧,将数据
Figure BDA00040008035800000518
a,r,
Figure BDA00040008035800000519
存放进经验池,其中
Figure BDA00040008035800000520
为当前状态,a为当前状态的动作值,r为当前状态取得的奖励,
Figure BDA0004000803580000061
为下一个状态;当经验池容量大于start_size跳转
3-6)学习,从经验池取出的数据大小为batch;否则跳转到3-4)重新收集敌方无人机数据,
Figure BDA0004000803580000062
3-6):tar_actor网络输入为敌方无人机状态
Figure BDA0004000803580000063
输出为动作
Figure BDA0004000803580000064
其中ε0~N(0,1),为高斯噪声;tar_critic1网络,tar_critic2网络的输入为
Figure BDA0004000803580000065
输出分别为batch_q1′,batch_q2′;
3-7):通过奖励batch_r和tar_critic1网络与tar_critic2网络输出的最小batch_q1′,batch_q2′拟合y,其中y定义为:
y=batch_r+γmin(batch_q1′,batch_q2′) (5)
其中0≤γ≤1;
3-8):更新critic1,critic2,网络权重参数
Figure BDA0004000803580000066
方式如下:
Figure BDA0004000803580000067
3-9):delay_update更新actor网络权重参数θμ,tar_critic1,tar_critic2,tar_actor网络权重参数
Figure BDA0004000803580000068
θμ′方式如下:
Figure BDA0004000803580000069
其中τ为衰减率(decay),τ的取值范围为0≤τ≤1
3-10):判断一局游戏是否结束,如游戏未结束跳转到3-4)继续进行训练
Figure BDA00040008035800000610
判断整个训练是否结束,若训练未结束则跳转到3-3),否贼跳转到3-11);
3-11):结束训练。
本实例将416×416图片输入yolo神经网络,实时高效地检测敌方无人机,分析敌方态势信息,利用TD3算法,直接输出无人机的连续动作值a,精准控制无人机跟踪敌方无人机,解决了敌方无人机因变速而引起的目标丢失。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于深度强化学习的无人机战场目标跟踪控制方法,其特征在于,包括以下步骤:
S1、根据无人机自身的传感器系统检测敌我态势;
S2、利用深度学习分析敌方态势得到需要跟踪的敌方目标信息;
S3、根据敌方的信息利用深度强化学习进行实时的跟踪控制。
2.根据权利要求1所述的基于深度强化学习的无人机战场目标跟踪控制方法,其特征在于,所述步骤S1中,通过自身传感器系统周期性感知我方无人机的态势信息sa,敌方态势信息sb,其中
Figure FDA0004000803570000011
ν为我方无人机的速度信息,ph为我方无人机高度态势信息,κ,ω,
Figure FDA0004000803570000012
分别为无人机航向角,横滚角,俯仰角态势信息;其中,sb为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息。
3.根据权利要求1所述的基于深度强化学习的无人机战场目标跟踪控制方法,其特征在于,所述步骤S2具体包括如下步骤:
S21:搭建目标检测深度学习神经网络π,输入为(N×N×3)N=416的图片ν,输出三个不同尺度的特征图ζ=π(ν),
ζ=N×N×[3×(classes+σ+confidence)]N=13,26,52 (1)
其中N为特征图的尺寸大小;classes为目标检测的种类;σ={σxywh},其中σxy为预测框中心坐标点的偏移量,σwh为预测框宽高的缩放比;confidence为目标置信度;
1)根据神经网络输出的σ绘制出所有的预测框,利用输出的confidence筛选出置信度大于阈值的预测框集合A;
2)利用经过非极大抑制以后的预测框集合X绘制出最终预测框;
Figure FDA0004000803570000013
其中A为所有预测框的集合;X为经过非极大抑制后预测框的集合;γ,ε分别为置信度与
Figure FDA0004000803570000018
的阈值;w、h为预测框的宽和高;
S22:根据我方无人机获取的敌方视频流态势信息sb,利用步骤S21搭建好的神经网络,输出敌方位置态势信息
Figure FDA0004000803570000014
其中,
Figure FDA0004000803570000015
ix为敌方目标x轴像素坐标值,iy为敌方目标y轴像素坐标值;iw为检测到的敌方目标预测框的宽,ih为检测到的敌方目标预测框的高,d为己方无人机到敌方目标的距离,d计算公式为:
Figure FDA0004000803570000016
其中N为单位时间内检测的次数,d满足以
Figure FDA0004000803570000017
为均值,σ为标准差的正态分布,F为摄像机的焦距,P为敌方目标的像素宽度,W为敌方目标的实际宽度;
S23:整合我方无人机与敌方态势信息
Figure FDA00040008035700000222
便于进行步骤S3所述的跟踪控制;其中
Figure FDA0004000803570000021
其中ph为我方无人机高度态势信息,κ,ω,
Figure FDA0004000803570000022
分别为无人机航向角,横滚角,俯仰角态势信息,fxy为敌方目标实际位置与敌方目标理想位置的误差,ixy为敌方目标中心点坐标,Ixy为敌方目标理想中心点坐标,fd为理想距离dtar与实际距离d之间的误差。
4.根据权利要求1所述的基于深度强化学习的无人机战场目标跟踪控制方法,其特征在于,所述步骤S3包括如下步骤:
S31:构建双延迟深度确定性策略梯度网络,具体包括:构建actor网络μ;tar_actor网络μ′,其网络权重参数分别为:θμμ′;构建critic1网络Q1,critic2网络;tar_critic1网络Q1′,tar_critic2网络Q2′,其网络权重参数分别为
Figure FDA0004000803570000023
S32:初始化actor网络μ,tar_actor网络μ′,critic1网络Q1,critic2网络Q2,tar_critic1网络Q1′,tar_critic2网络Q2′,包括其网络权重参数θμ,θμ′
Figure FDA0004000803570000024
其中θμ′
Figure FDA0004000803570000025
分别为θμ
Figure FDA0004000803570000026
的深拷贝;初始化网络超参数:折扣因子γ,批次大小batch,经验池容量max_capacity,replay buffer启动阈值start_size,延迟更新频率delay_update;
S33:初始化任务环境,获得步骤2所得到的敌方无人机综合态势信息
Figure FDA0004000803570000027
S34:根据敌方无人机综合态势信息
Figure FDA0004000803570000028
输入actor网络μ,输出我方无人机动作值
Figure FDA0004000803570000029
其中ε为衰减的随机噪声;根据a将控制指令发送并控制无人机飞行,重新检测步骤2所得到的敌方无人机综合态势信息
Figure FDA00040008035700000210
S35:利用经验回放技巧,将数据
Figure FDA00040008035700000211
a,r,
Figure FDA00040008035700000212
存放进经验池,其中
Figure FDA00040008035700000213
为当前状态,a为当前状态的动作值,r为当前状态取得的奖励,
Figure FDA00040008035700000214
为下一个状态;当经验池容量大于start_size跳转S36学习,从经验池取出的数据大小为batch;否则跳转到S34重新收集敌方无人机数据,
Figure FDA00040008035700000215
S36:tar_actor网络输入为敌方无人机状态
Figure FDA00040008035700000216
输出为动作
Figure FDA00040008035700000217
其中ε0为高斯噪声:服从正态分布;tar_critic1网络,tar_critic2网络的输入为
Figure FDA00040008035700000218
输出分别为batch_q1′,batch_q2′;
S37:通过奖励batch_r和tar_critic1网络与tar_critic2网络输出的最小batch_q1′,batch_q2′拟合y,其中y定义为:
y=batch_r+γmin(batch_q1′,batch_q2′) (5)
其中0≤γ≤1;
S38:更新critic1,critic2,网络权重参数
Figure FDA00040008035700000219
方式如下:
Figure FDA00040008035700000220
S39:delay_update更新actor网络权重参数θμ,tar_critic1,tar_critic2,tar_actor网络权重参数
Figure FDA00040008035700000221
θμ′方式如下:
Figure FDA0004000803570000031
其中τ为衰减率(decay),τ的取值范围为0≤τ≤1
S310:判断一局游戏是否结束,如游戏未结束跳转到S34继续进行训练
Figure FDA0004000803570000032
判断整个训练是否结束,若训练未结束则跳转到S33,否贼跳转到S311;
S311:结束训练。
CN202211612915.9A 2022-12-15 2022-12-15 一种基于深度强化学习的无人机战场目标跟踪控制方法 Active CN116069056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211612915.9A CN116069056B (zh) 2022-12-15 2022-12-15 一种基于深度强化学习的无人机战场目标跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211612915.9A CN116069056B (zh) 2022-12-15 2022-12-15 一种基于深度强化学习的无人机战场目标跟踪控制方法

Publications (2)

Publication Number Publication Date
CN116069056A true CN116069056A (zh) 2023-05-05
CN116069056B CN116069056B (zh) 2023-07-18

Family

ID=86169156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211612915.9A Active CN116069056B (zh) 2022-12-15 2022-12-15 一种基于深度强化学习的无人机战场目标跟踪控制方法

Country Status (1)

Country Link
CN (1) CN116069056B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116974204A (zh) * 2023-08-23 2023-10-31 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备
CN117032297A (zh) * 2023-07-10 2023-11-10 南通大学 无人机跟踪控制模型的训练方法、使用方法及终端设备
CN117540626A (zh) * 2023-10-30 2024-02-09 南通大学 一种基于贝叶斯神经网络的固定翼无人机态势预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN114239728A (zh) * 2021-12-17 2022-03-25 中国航空研究院 一种多域战场态势评估与威胁排序方法
CN114510078A (zh) * 2022-02-16 2022-05-17 南通大学 一种基于深度强化学习的无人机机动规避决策方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN114239728A (zh) * 2021-12-17 2022-03-25 中国航空研究院 一种多域战场态势评估与威胁排序方法
CN114510078A (zh) * 2022-02-16 2022-05-17 南通大学 一种基于深度强化学习的无人机机动规避决策方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
QIMING YANG等: "Maneuver Decision of U_AV in Short-Range Air Combat Based on Deep Reinforcement Learning", 《IEEE》 *
ZHANG JIANDONG等: "UAV cooperative air combat maneuver decision based on multi-agent reinforcementleanmg", 《《JOURNAL OF SYSTEMS ENGINEERING AND ELECTRONICS》》 *
何金;丁勇;高振龙;: "基于Double Deep Q Network的无人机隐蔽接敌策略", 电光与控制, no. 07 *
姚桐;王越;董岩;戚锦;耿修堂;: "深度强化学习在作战任务规划中的应用", 飞航导弹, no. 04 *
魏明鑫;黄浩;胡永明;王德志;李岳彬;: "基于深度学习的多旋翼无人机单目视觉目标定位追踪方法", 计算机测量与控制, no. 04 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117032297A (zh) * 2023-07-10 2023-11-10 南通大学 无人机跟踪控制模型的训练方法、使用方法及终端设备
CN116974204A (zh) * 2023-08-23 2023-10-31 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备
CN116974204B (zh) * 2023-08-23 2024-04-09 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备
CN117540626A (zh) * 2023-10-30 2024-02-09 南通大学 一种基于贝叶斯神经网络的固定翼无人机态势预测方法
CN117540626B (zh) * 2023-10-30 2024-05-14 南通大学 一种基于贝叶斯神经网络的固定翼无人机态势预测方法

Also Published As

Publication number Publication date
CN116069056B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN116069056B (zh) 一种基于深度强化学习的无人机战场目标跟踪控制方法
WO2021135554A1 (zh) 一种无人车全局路径规划方法和装置
CN109933086B (zh) 基于深度q学习的无人机环境感知与自主避障方法
Li et al. Visual model‐predictive localization for computationally efficient autonomous racing of a 72‐g drone
CN109949375B (zh) 一种基于深度图感兴趣区域的移动机器人目标跟踪方法
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN116263335A (zh) 一种基于视觉与雷达信息融合与强化学习的室内导航方法
CN106683118B (zh) 一种基于分层模型的无人机目标跟踪方法
CN107705324A (zh) 一种基于机器学习的视频目标检测方法
CN102298070A (zh) 估算无人机,尤其是能够在自动驾驶下执行悬停飞行的无人机的水平速度的方法
CN112698646B (zh) 一种基于强化学习的航行器路径规划方法
CN111474953B (zh) 多动态视角协同的空中目标识别方法及系统
CN107192375B (zh) 一种基于航拍姿态的无人机多帧图像自适应定位校正方法
CN112651374B (zh) 一种基于社会信息的未来轨迹预测方法及自动驾驶系统
CN111260040A (zh) 基于内在奖励的视频游戏决策方法
CN116300909A (zh) 一种基于信息预处理和强化学习的机器人避障导航方法
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN111338375A (zh) 基于混合策略的四旋翼无人机移动降落的控制方法及系统
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
CN113723757A (zh) 决策生成模型训练方法、决策生成方法及装置
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN116152297A (zh) 一种适应车辆运动特点的多目标跟踪方法
CN116258744A (zh) 基于可见光、红外和激光雷达数据融合的目标跟踪方法
CN108759846A (zh) 自适应扩展卡尔曼滤波噪声模型建立方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant