CN116069056A

CN116069056A - 一种基于深度强化学习的无人机战场目标跟踪控制方法

Info

Publication number: CN116069056A
Application number: CN202211612915.9A
Authority: CN
Inventors: 袁银龙; 徐沛安; 程赟; 华亮; 李俊红
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-05-05
Anticipated expiration: 2042-12-15
Also published as: CN116069056B

Abstract

本发明提供了一种基于深度强化学习的无人机战场目标跟踪控制方法，属于无人机技术领域；解决了无人机无法自主进行战场目标跟踪控制的难题。其技术方案为：包括以下步骤：S1、根据无人机自身的传感器系统检测敌我态势；S2、利用深度学习分析敌方态势得到需要跟踪的敌方目标信息；S3、根据敌方的态势信息利用深度强化学习进行实时的跟踪控制。本发明的有益效果为：本发明能够令无人机完成对敌方目标的自主跟踪控制，提高无人机在战场上的利用效能，有利于提升无人机作战能力。

Description

一种基于深度强化学习的无人机战场目标跟踪控制方法

技术领域

本发明涉及无人机技术领域，尤其涉及一种基于深度强化学习的无人机战场目标跟踪控制方法。

背景技术

当今时代，军事智能化深刻影响着未来作战制胜机理、作战规则及作战方式方法等。无人机技术已经广泛用于军事作战中，人机协同作战，集群自主作战等。随着现代战场环境复杂多变，人工操作很难完成复杂的战场目标感知与跟踪。无人机的自主跟踪控制能力在军事作战中起着至关重要的作用。

一些传统深度学习算法例如faster-rcnn在检测敌方无人机方面具有精度较高的检测性能，具有通用性与鲁棒性。但是由于faster-rcnn算法性能方面远不如yolo算法，适用与静态无人机的检测，无法用于高速，实时的无人机检测。传统的确定性深度学习算法例如DDPG,能够输出确定的无人机动作值，控制无人机飞行，但是这类方法存在过估计问题，限制了无人机的训练。难以适用于环境复杂的战场。

发明内容

本发明的目的在于提供一种基于深度强化学习的无人机战场目标跟踪控制方法，首先根据无人机自身的传感器系统检测敌我态势，再利用深度学习，根据获得的敌方态势确认跟踪目标信息，最后根据敌方的态势信息利用深度强化学习进行实时的跟踪控制。本发明赋予无人机自主跟踪战场目标的能力，人机协同作战，自主作战等，提高作战效能。

本发明是通过如下措施实现的：一种基于深度强化学习的无人机战场目标跟踪控制方法，包括以下步骤：

步骤一、根据无人机自身的传感器系统检测敌我态势；

步骤二、利用深度学习分析敌方态势得到需要跟踪的敌方目标信息；

步骤三、根据敌方的态势信息利用深度强化学习进行实时的跟踪控制。

进一步地，所述步骤一中，通过自身传感器系统周期性感知我方无人机态势信息s_a，敌方态势信息s_b，其中

v为我方无人机的速度信息,p_h为我方无人机高度态势信息，κ,ω,

分别为无人机航向角，横滚角，俯仰角态势信息。其中,s_b为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息。

进一步地，所述步骤二包含如下步骤：

2-1)、搭建目标检测深度学习神经网络π，输入为(N×N×3)_N＝416的图片ν，输出三个不同尺度的特征图ζ＝π(ν).

ζ＝N×N×[3×(classes+σ+confidence)]_N＝13,26,52 (1)

其中N为特征图的尺寸大小；classes为目标检测的种类；σ＝{σ^x,σ^y,σ^w,σ^h}，其中σ^x,σ^y为预测框中心坐标点的偏移量，σ^w,σ^h为预测框宽高的缩放比；confidence为目标置信度。

a)根据神经网络输出的σ绘制出所有的预测框，利用输出的confidence筛选出置信度大于阈值的预测框集合A。

b)利用经过非极大抑制以后的预测框集合X绘制出最终预测框。

其中A为所有预测框的集合；X为经过非极大抑制后预测框的集合；Υ，ε分别为置信度与

的阈值；w，h为预测框的宽和高。

2-2)、根据我方无人机获取的敌方视频流态势信息s_b，利用步骤S21搭建好的神经网络，输出敌方位置态势信息

其中，

i_x为敌方目标x轴像素坐标值，i_y为敌方目标y轴像素坐标值；i_w为检测到的敌方目标预测框的宽，i_h为检测到的敌方目标预测框的高，d为己方无人机到敌方目标的距离。d计算公式为：

其中N为单位时间内检测的次数，d满足以

为均值，σ为标准差的正态分布。F为摄像机的焦距，P为敌方目标的像素宽度，W为敌方目标的实际宽度。

2-3)、:整合我方无人机与敌方态势信息

便于进行步骤S3所述的跟踪控制。其中

其中p_h为我方无人机高度态势信息。κ,ω,

分别为无人机航向角，横滚角，俯仰角态势信息。f_xy为敌方目标实际位置与敌方目标理想位置的误差，i_xy为敌方目标中心点坐标，I_xy为敌方目标理想中心点坐标。f_d为理想距离d_tar与实际距离d之间的误差。

进一步地，所述步骤三中包含如下步骤：

3-1):构建双延迟深度确定性策略梯度网络，具体包括：构建actor网络μ；tar_actor网络μ′，其网络权重参数分别为：θ^μ,θ^μ′。构建critic1网络Q_1,critic2网络；tar_critic1网络Q₁′,tar_critic2网络Q₂′。其网络权重参数分别为

3-2):初始化actor网络μ，tar_actor网络μ′，critic1网络Q₁,critic2网络Q₂，tar_critic1网络Q₁′,tar_critic2网络Q₂′，包括其网络权重参数θ^μ，θ^μ′，

其中θ^μ′，

分别为θ^μ，

的深拷贝；初始化网络超参数:折扣因子γ,批次大小batch，经验池容量max_capacity，replay buffer启动阈值start_size，延迟更新频率delay_update；

3-3):初始化任务环境，获得步骤2所得到的敌方无人机综合态势信息

3-4):根据敌方无人机综合态势信息

输入actor网络μ,输出我方无人机动作值

其中ε为衰减的随机噪声；根据a将控制指令发送并控制无人机飞行，重新检测步骤2所得到的敌方无人机综合态势信息

3-5)：利用经验回放技巧，将数据

a,r,

存放进经验池，其中

为当前状态，a为当前状态的动作值，r为当前状态取得的奖励，

为下一个状态；当经验池容量大于start_size跳转

3-6)学习，从经验池取出的数据大小为batch；否则跳转到3-4)重新收集敌方无人机数据，

3-6):tar_actor网络输入为敌方无人机状态

输出为动作

其中ε₀为高斯噪声：服从正态分布；tar_critic1网络,tar_critic2网络的输入为

输出分别为batch_q₁′,batch_q₂′；

3-7):通过奖励batch_r和tar_critic1网络与tar_critic2网络输出的最小batch_q₁′,batch_q₂′拟合y，其中y定义为:

y＝batch_r+γmin(batch_q₁′,batch_q₂′) (5)

其中0≤γ≤1；

3-8):更新critic1,critic2,网络权重参数

方式如下:

3-9):delay_update更新actor网络权重参数θ^μ，tar_critic1，tar_critic2，tar_actor网络权重参数

θ^μ′方式如下：

其中τ为衰减率(decay)，τ的取值范围为0≤τ≤1

3-10):判断一局游戏是否结束，如游戏未结束跳转到3-4)继续进行训练

判断整个训练是否结束，若训练未结束则跳转到3-3)，否贼跳转到3-11)；

3-11):结束训练。

与现有技术相比，本发明的有益效果为：

(1)本发明引入yolo深度学习算法，有效权衡了传统网络检测精度与检测速度问题，不仅解决了传统网络小目标物体检测的问题，还具有相当可靠的检测速度与精度，适用于实时复杂的战场环境。

(2)本发明引入双Critic网络方法，有效解决了传统深度强化学习网络过估计的问题，而且利用延迟更新和目标网络添加噪声的方法，使深度强化学习神经网络的训练更加稳定和高效。

(3)本发明引入Actor_Critic网络结构，输出连续的动作值，精准控制无人机自主进行战场目标的感知与跟踪控制，有效解决了因战场目标变速而引起的目标丢失。

(4)本发明的方法适用不同战场目标的感知与跟踪控制；态势信息获取、深度学习神经网络的构建、深度强化学习神经网络的构建及其应用，具有普遍性和可靠性，经过相应的训练能直接投入战场使用。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提供的基于深度强化学习的无人机战场目标跟踪控制方法的整体流程图。

图2为本发明提供的基于深度强化学习的无人机战场目标跟踪控制方法的态势信息图。

图3为本发明提供的基于深度强化学习的无人机战场目标跟踪控制方法深度学习确认目标信息流程图。

图4为本发明提供的基于深度强化学习的无人机战场目标跟踪控制方法深度强化学习模型结构图。

图5为本发明提供的基于深度强化学习的无人机战场目标跟踪控制方法深度强化学习训练流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于深度强化学习的无人机战场目标跟踪控制方法，其中包括以下步骤：

步骤1、根据无人机自身的传感器系统检测敌我态势；

步骤2、利用深度学习分析敌方态势得到需要跟踪的敌方目标信息；

步骤3、根据敌方的态势信息利用深度强化学习进行实时的跟踪控制。

参见图1至图5，本发明提供其技术方案实施步骤如下：

步骤1：如图2所示，通过自身传感器系统周期性感知我方无人机态势信息s_a，敌方态势信息s_b，其中

步骤2：如图3所示，搭建目标检测深度学习神经网络π，输入为(416×416×3)的图片v，输出三个不同尺度的特征图ζ＝π(ν).

ζ＝N×N×[3×(classes+σ+confidence)]_N＝13,26,52 (1)

其中N为特征图的尺寸大小；classes＝1为目标检测的种类；σ＝{σ^x,σ^y,σ^w,σ^h}，其中σ^x,σ^y为预测框中心坐标点的偏移量，σ^w,σ^h为预测框宽高的缩放比；confidence为目标置信度。

的阈值；w，h为预测框的宽和高。

其中，

i_x，i_y为敌方中心点坐标即预测框中心点坐标。i_w，i_h为敌方的宽和高即预测框的宽和高，d为己方无人机到敌方目标的距离。d计算公式为：

其中N为单位时间内检测的次数，d满足以

2-3)、:整合我方无人机与敌方态势信息

便于进行步骤S3所述的跟踪控制。其中

其中p_h为我方无人机高度态势信息。κ,ω,

分别为无人机航向角，横滚角，俯仰角态势信息。f_xy为敌方目标实际位置与敌方目标理想位置的误差，i_xy为敌方目标中心点坐标，I_xy＝(128，72)为敌方目标理想中心点坐标。f_d为理想距离d_tar＝400cm与实际距离d之间的误差。

步骤3；如图4，如图5所示。深度强化学习神经网络的搭建与训练如下：3-1):构建双延迟深度确定性策略梯度网络，具体包括：构建actor网络μ；tar_actor网络μ′，其网络权重参数分别为：θ^μ,θ^μ′。构建critic1网络Q₁,critic2网络；tar_critic1网络Q₁′,tar_critic2网络Q₂′。其网络权重参数分别为

其中θ^μ′，

分别为θ^μ，

的深拷贝；初始化网络超参数:折扣因子γ＝0.99,批次大小batch＝128，经验池容量max_capacity＝5000，replay buffer启动阈值start_size＝2000，延迟更新频率delay_update＝2；

3-4):根据敌方无人机综合态势信息

输入actor网络μ,输出我方无人机动作值

3-5)：利用经验回放技巧，将数据

a,r,

存放进经验池，其中

为下一个状态；当经验池容量大于start_size跳转

3-6):tar_actor网络输入为敌方无人机状态

输出为动作

其中ε₀～N(0,1)，为高斯噪声；tar_critic1网络,tar_critic2网络的输入为

输出分别为batch_q₁′,batch_q₂′；

y＝batch_r+γmin(batch_q₁′,batch_q₂′) (5)

其中0≤γ≤1；

3-8):更新critic1,critic2,网络权重参数

方式如下:

θ^μ′方式如下：

其中τ为衰减率(decay)，τ的取值范围为0≤τ≤1

3-11):结束训练。

本实例将416×416图片输入yolo神经网络，实时高效地检测敌方无人机，分析敌方态势信息，利用TD3算法，直接输出无人机的连续动作值a，精准控制无人机跟踪敌方无人机，解决了敌方无人机因变速而引起的目标丢失。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度强化学习的无人机战场目标跟踪控制方法，其特征在于，包括以下步骤：

S1、根据无人机自身的传感器系统检测敌我态势；

S2、利用深度学习分析敌方态势得到需要跟踪的敌方目标信息；

S3、根据敌方的信息利用深度强化学习进行实时的跟踪控制。

2.根据权利要求1所述的基于深度强化学习的无人机战场目标跟踪控制方法，其特征在于，所述步骤S1中，通过自身传感器系统周期性感知我方无人机的态势信息s_a，敌方态势信息s_b，其中

ν为我方无人机的速度信息,p_h为我方无人机高度态势信息，κ,ω,

分别为无人机航向角，横滚角，俯仰角态势信息；其中,s_b为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息。

3.根据权利要求1所述的基于深度强化学习的无人机战场目标跟踪控制方法，其特征在于，所述步骤S2具体包括如下步骤：

S21：搭建目标检测深度学习神经网络π，输入为(N×N×3)_N＝416的图片ν，输出三个不同尺度的特征图ζ＝π(ν),

ζ＝N×N×[3×(classes+σ+confidence)]_N＝13,26,52 (1)

其中N为特征图的尺寸大小；classes为目标检测的种类；σ＝{σ^x,σ^y,σ^w,σ^h}，其中σ^x,σ^y为预测框中心坐标点的偏移量，σ^w,σ^h为预测框宽高的缩放比；confidence为目标置信度；

1)根据神经网络输出的σ绘制出所有的预测框，利用输出的confidence筛选出置信度大于阈值的预测框集合A；

2)利用经过非极大抑制以后的预测框集合X绘制出最终预测框；

其中A为所有预测框的集合；X为经过非极大抑制后预测框的集合；γ，ε分别为置信度与

的阈值；w、h为预测框的宽和高；

S22:根据我方无人机获取的敌方视频流态势信息s_b，利用步骤S21搭建好的神经网络，输出敌方位置态势信息

其中，

i_x为敌方目标x轴像素坐标值，i_y为敌方目标y轴像素坐标值；i_w为检测到的敌方目标预测框的宽，i_h为检测到的敌方目标预测框的高，d为己方无人机到敌方目标的距离，d计算公式为：

其中N为单位时间内检测的次数，d满足以

为均值，σ为标准差的正态分布，F为摄像机的焦距，P为敌方目标的像素宽度，W为敌方目标的实际宽度；

S23:整合我方无人机与敌方态势信息

便于进行步骤S3所述的跟踪控制；其中

其中p_h为我方无人机高度态势信息，κ,ω,

分别为无人机航向角，横滚角，俯仰角态势信息，f_xy为敌方目标实际位置与敌方目标理想位置的误差，i_xy为敌方目标中心点坐标，I_xy为敌方目标理想中心点坐标，f_d为理想距离d_tar与实际距离d之间的误差。

4.根据权利要求1所述的基于深度强化学习的无人机战场目标跟踪控制方法，其特征在于，所述步骤S3包括如下步骤：

S31:构建双延迟深度确定性策略梯度网络，具体包括：构建actor网络μ；tar_actor网络μ′，其网络权重参数分别为：θ^μ,θ^μ′；构建critic1网络Q₁,critic2网络；tar_critic1网络Q₁′,tar_critic2网络Q₂′，其网络权重参数分别为

S32:初始化actor网络μ，tar_actor网络μ′，critic1网络Q₁,critic2网络Q₂，tar_critic1网络Q₁′,tar_critic2网络Q₂′，包括其网络权重参数θ^μ，θ^μ′，

其中θ^μ′，

分别为θ^μ，

S33:初始化任务环境，获得步骤2所得到的敌方无人机综合态势信息

S34:根据敌方无人机综合态势信息

输入actor网络μ,输出我方无人机动作值

S35：利用经验回放技巧，将数据

a,r,

存放进经验池，其中

为下一个状态；当经验池容量大于start_size跳转S36学习，从经验池取出的数据大小为batch；否则跳转到S34重新收集敌方无人机数据，

S36:tar_actor网络输入为敌方无人机状态

输出为动作

输出分别为batch_q₁′,batch_q₂′；

S37:通过奖励batch_r和tar_critic1网络与tar_critic2网络输出的最小batch_q₁′,batch_q₂′拟合y，其中y定义为:

y＝batch_r+γmin(batch_q₁′,batch_q₂′) (5)

其中0≤γ≤1；

S38:更新critic1,critic2,网络权重参数

方式如下:

S39:delay_update更新actor网络权重参数θ^μ，tar_critic1，tar_critic2，tar_actor网络权重参数

θ^μ′方式如下：

其中τ为衰减率(decay)，τ的取值范围为0≤τ≤1

S310:判断一局游戏是否结束，如游戏未结束跳转到S34继续进行训练

判断整个训练是否结束，若训练未结束则跳转到S33，否贼跳转到S311；

S311:结束训练。