CN116385909A

CN116385909A - 一种基于深度强化学习的无人机目标跟踪方法

Info

Publication number: CN116385909A
Application number: CN202310354570.XA
Authority: CN
Inventors: 赵飞宇; 张力; 王正旭
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-07-04

Abstract

本发明公开一种基于深度强化学习的无人机目标跟踪方法，属于机器人及人工智能应用领域。包括两个步骤：Step1，环境信息与传感器信息预处理：无人机通过自身的环境信息与传感器信息预处理模块，提取一组目标信息、雷达信息、高度信息并对提取的信息进行预处理；Step2，强化学习跟踪：将Step1得到的预处理后的信息融合为一组state信息，将当前state信息传入无人机强化学习跟踪器，对无人机强化学习跟踪器进行训练，训练完成后，将其部署到无人机上，实现实时跟踪动作。通过本发明，无人机在缺失深度信息情况下，能够实现更加精确的目标跟踪，提高无人机目标跟踪成功率，降低无人机实机部署成本。

Description

一种基于深度强化学习的无人机目标跟踪方法

技术领域

本发明涉及一种基于深度强化学习的无人机目标跟踪方法，属于机器人及人工智能应用领域。

背景技术

目前，借助深度摄像头或距离解算算法进行无人机目标跟踪的方法已经相当成熟。然而，使用仅搭载普通单目摄像头的无人机的，剔除深度信息进行目标跟踪仍然是一项困难的任务。对于目标跟踪任务，机器人需要先找到目标，然后根据自身的状态信息和环境信息进行合理动作控制，以保持与目标的相对距离。但当无人机处于不同高度和深度信息缺失的情况下，仅依靠图像信息很难获得准确的相对位置。当我们的无人机只配备单目摄像头时，由于无人机的高度以及不同摄像头的内部参数不同，最终的图像与现实世界的尺度不匹配。在这种情况下，需要根据摄像头内部参数和无人机传感器数据进行复杂的计算，根据图像信息以及深度距离信息获得目标点与无人机在自身坐标系中的相对位置信息；相对坐标转化为动作信息被输入到高层控制器中以控制无人机。但机载摄像头的更换、无人机高度变化、深度过大导致深度信息误差过高等问题，都会导致无人机解算相对位置信息能力降低，进而削弱目标跟踪效果。

发明内容

本发明要解决的技术问题是公开一种基于深度强化学习的无人机目标跟踪方法，这种方法就是针对在深度信息缺失或不精确的条件下，将无人机目标跟踪任务表述为一个马尔科夫链，设计强化学习跟踪器以实现更加迅速准确的无人机目标跟踪工作。实现目标就是在深度信息缺失或不精确的条件下，使无人机更快更精确的完成目标跟踪任务。

对于强化学习算法，每一个时间步相较于其他训练算法都需要更长的时间来完成。如果将图像信息和雷达信息这种冗余信息直接输出给强化学习智能体，会导致每一时间步的所需的时间会大大加长，同时还会导致训练的拟合时间也会大大加长，因此数据预处理及融合模块以向强化学习跟踪器提供合适的state信息以更好地适配强化学习算法，在起到加速训练的作用的同时，还能更好的为以后扩充和移植到其它机器人平台做准备。

而强化学习跟踪器则提取经过预处理的state信息，做出相应规划，输出动作至高级控制器，高级控制器会将无人机的控制信息解算成电机控制指令并最终输出底层控制信息给无人机。

本发明采用的技术方案是：一种基于深度强化学习的无人机目标跟踪方法，包括如下步骤：

Step1，环境信息与传感器信息预处理：无人机通过自身的环境信息与传感器信息预处理模块，提取一组目标信息、雷达信息、高度信息并对提取的信息进行预处理；

Step2，强化学习跟踪：将Step1得到的预处理后的信息融合为一组state信息，将当前state信息传入无人机强化学习跟踪器，对无人机强化学习跟踪器进行训练，训练完成后，将其部署到无人机上，实现实时跟踪动作。

具体地，Step1中环境信息与传感器信息预处理模块包括目标检测模块、雷达模块、传感器模块，具体步骤为：

Step1.1：无人机的目标检测模块实时识别环境中的目标，并输出一组未经处理过的图像以及tensor向量，对tensor向量只截取包含坐标信息和类别信息的部分，将截取的信息融合后得到一组5维的msg1向量；

Step1.2:无人机的雷达模块则实时收集当前环境的障碍物信息，提取障碍物信息中的最短反射距离及其对应角度作为最终需融合的雷达数据msg2；

Step1.3：无人机的传感器模块负责收集由惯性传感器解算出无人机自身的高度信息msg3。

具体地，Step2的具体步骤为：

Step2.1：设计两层神经网络为Actor和Critic，Actor由3个全连接层FC组成，最后一个全连接层FC输出一组4维的动作向量，最后一个全连接层FC层的激活函数选择tanh函数，保证动作向量的数值区间在[-1,1]；Critic由两个神经网络C1和C2组成，C1、C2都由4个全连接层FC组成，C1和C2都会输出一维的Q-value值；

Step2.2：调取Step1.1获得的msg1向量；调取Step1.2获得的雷达数据msg2；调取Step1.3中收集到的高度信息msg3；并将msg1、msg2、msg3融合得到一组8维向量作为state信息；

Step2.3：将Step2.2获得的state信息命名为state1；

Step2.4：将state1信息输入至Actor网络中，Actor网络输出一组4维的动作向量给无人机控制器，无人机控制器解算4维的动作向量后控制无人机做出相应运动a，在无人机到达新位置后，重新执行Step2.2获得一组全新的state信息并将其命名为state2，并根据奖励策略和state2获得奖励值R；

Step2.5:将Step2.3得到的state1、动作a输入到神经网络C1、C2中，分别得到Q-value1和Q-value2，以Q-value2值和Step2.4得到的奖励值R作为基准做梯度更新，更新Critic参数，以Step2.3得到的state1和Q-Value1为基准做梯度更新，更新Actor网络的参数；

Step2.6：将state2赋值给state1；

Step2.7：重复执行Step2.4-Step2.6至无人机跟踪效果明显，完成跟踪器的训练；

Step2.8：将训练好的跟踪器部署到无人机上，执行一次Step2.2-Step2.3后，重复执行Step2.4、Step2.6以实现跟踪动作。

更具体地，所述的奖励策略设计如下：

在每次决策，总奖励R有以下不同项组成：

R＝R_t+w_n·R_n+R_s+w_C·Rc, (1)

其中Rt是最终奖励，Rn是步数奖励，Rs是单步奖励，Rc是碰撞奖励，Wn，Wc分别为步数奖励以及碰撞奖励的权值，

最终奖励Rt指无人机到达目标点正上方，给予无人机固定的100分奖励；

步数奖励Rn指在当前幕下，无人机最大移动步数maxstep和当前移动的步数count(step)的比例：

单步奖励Rs是每一时间步变化最频的奖励，该奖励计算本步规划是否使无人机贴近目标点，

x_p、y_p为目标中心在图像坐标系的坐标值，x_pc、y_pc为图像中心点坐标值，w_p为像素误差的权值，x_E、y_E为目标中心在ENU坐标系下目标点的坐标值，x_Ec、y_Ec为无人机当前位置在ENU坐标系下的坐标值，w_e为ENU误差权值；

碰撞奖励Rc指无人机在发生碰撞时对当前幕的惩罚，

本发明的有益效果是：本发明的基于深度强化学习的无人机目标跟踪方法，从创新实现角度，将所有路径规划动作都交由无人机自主处理，不做任何人为干涉，实现无人机更进一步自主决策的过程；

从实用性上，解决了在深度信息缺失的情况下或在单摄像头深度补全效果不理想时，随着无人机距离升高，与障碍物或目标的深度信息过高，导致相对位置信息的解算的准确性低的问题，更精确的实现了无人机局部路径规划工作。

附图说明

图1为本发明运作的基本流程图：

图2为本发明强化学习规划器所属神经网络架构设计。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明型，并非用于限定本发明型的范围.

实施例1：如图1-2所示，一种基于深度强化学习的无人机目标跟踪方法，

首先，根据真机搭建无人机仿真环境以适配训练。

搭载无人机平台，其中包括px4飞控一套、机载计算机一组(树莓派、Jason Nano)、机架动力套模组一件、方向朝下单目摄像头一件以及激光雷达模组一套。gazebo仿真器中的环境与无人机配置与真机实验环境相同，以满足训练需要。

然后，执行如下步骤：

进一步地，Step1中环境信息与传感器信息预处理模块包括目标检测模块、雷达模块、传感器模块，具体步骤为：

进一步地，Step2的具体步骤为：

Step2.3：将Step2.2获得的state信息命名为state1；

Step2.6：将state2赋值给state1；

进一步地，所述的奖励策略设计如下：

在每次决策，总奖励R有以下不同项组成：

R＝R_t+w_n·R_n+R_s+w_C·Rc, (1)

旨在是鼓励无人机在不发生碰撞的前提下到达目标点的正上空。

该奖励的鼓励无人机更快的前往目标点，同时提升了算法的收敛速度。

x_p、y_p为目标中心在图像坐标系的坐标值，x_pc、y_pc为图像中心点坐标值，w_p为像素误差的权值，x_E、y_E为目标中心在ENU坐标系下目标点的坐标值，x_Ec、y_Ec为无人机当前位置在ENU坐标系下的坐标值，w_e为ENU误差权值。在单步奖励中添加ENU系下的纠正，可以增快收敛速度，降低训练成本。本奖励多为负奖励起到鼓励无人机探索的作用。

碰撞奖励Rc指无人机在发生碰撞时对当前幕的惩罚，

表1为本发明强化学习规划器经过训练后在各种环境空间中的跟踪成功率以及与传统方法的比对：

表1

如表1所示，实例结果表明：

在标准状况下，即无障碍物，地图边长为5m*5m，不限制训练时间，加入数据预处理模块，将单步奖励噪声值置为0.5，最大探索步数为5时，无人机成功实现路径规划的成功率为93％，基本达成了本发明的实验目的，可以实现在在陌生环境下的自主局部路径规划任务，且在该地图中，平均仅需1.73步便可达成路径跟踪任务；在对高度区间进行调整后，成功率和成功平均步数基本保持一致；本发明在隔离开数据预处理模块后，采用高维状态空间，成功率仅为3％，无法实现跟踪任务；在单步噪声值置为0.1，使其探索度降低时，成功率仅为13％，原因为无人机在路径规划时陷入了局部最优无法摆脱。本发明在添加障碍物后，并把探索步数置为10时，目标跟踪的成功率达到92％，与标准情况基本一直，但成功平均所需步数为4.12，远高于标准情况的主要原因为在障碍物附近需要做出额外避障动作。

在深度信息缺失或不精确的条件下，本发明将无人机路径规划表述为一个马尔科夫链，设计强化学习规划器以实现更加迅速准确的无人机局部路径规划与导航工作。通过本发明，无人机在缺失深度信息情况下，能够实现更加精确的目标跟踪，提高无人机目标跟踪成功率，降低无人机实机部署成本。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于深度强化学习的无人机目标跟踪方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于深度强化学习的无人机目标跟踪方法，其特征在于，Step1中环境信息与传感器信息预处理模块包括目标检测模块、雷达模块、传感器模块，具体步骤为：

3.根据权利要求1所述的一种基于深度强化学习的无人机目标跟踪方法，其特征在于：Step2的具体步骤为：

Step2.3：将Step2.2获得的state信息命名为state1；

Step2.6：将state2赋值给state1；

4.根据权利要求3所述的一种基于深度强化学习的无人机目标跟踪方法，其特征在于：所述的奖励策略设计如下：

在每次决策，总奖励R有以下不同项组成：

R＝R_t+w_n·R_n+R_s+w_C·Rc, (1)

碰撞奖励Rc指无人机在发生碰撞时对当前幕的惩罚，