CN115345281A

CN115345281A - 一种面向无人机图像导航的深度强化学习加速训练方法

Info

Publication number: CN115345281A
Application number: CN202211003481.2A
Authority: CN
Inventors: 祝小平; 王飞; 祝宁华
Original assignee: Xian Aisheng Technology Group Co Ltd
Current assignee: Xian Aisheng Technology Group Co Ltd
Priority date: 2022-08-21
Filing date: 2022-08-21
Publication date: 2022-11-15

Abstract

本发明涉及一种面向无人机图像导航的深度强化学习加速训练方法，包括物体检测模型的训练和动作选择策略的训练。其中，动作选择策略的训练是根据物体检测模型的模拟输出值并通过深度强化学习方法进行的。在基于图像的深度强化学习方法的训练中使用图像检测模型的模拟输出值代替图像检测模型的输出值来加速训练，该方法有如下优势：减少训练耗时，降低GPU使用率及显存占比和通用性较强。

Description

一种面向无人机图像导航的深度强化学习加速训练方法

技术领域

本发明属于计算机视觉领域，涉及一种面向无人机图像导航的深度强化学习加速训练方法。

背景技术

随着科技的发展，无人机已经广泛应用于军用和民用领域。在一些军事场景中，考虑到战场的复杂性，为了应对可能出现的无人机通信系统与雷达不可用情况，需要无人机具有通过机载相机进行图像导航的能力。在民用场景中，由于机载相机便携性高且价格低廉，也已广泛装载于无人机中。因此，实现基于图像的无人机导航具有重要意义。

近年来，随着计算机视觉技术的发展，物体检测技术的识别率提升明显。为了实现无人机更精准的图像导航，可以通过物体检测模型识别图像中的障碍物。但是，由于物体检测模型的网络较为复杂且网络层数较多，其输出值的计算耗时相对较久。而基于图像的深度强化学习训练方法是一种无监督算法，为了得到可以实现指定目的的决策网络，需要经过大量训练。因此，这限制了物体检测模型在深度强化学习方法中的应用。

在《基于图像和点云的无人机障碍物检测和避障方法及系统》(专利，公布号：CN114581831 A，公布日期：2022.06.03)中，通过物体检测模型识别图像中的障碍物，再参考识别结果根据指定的避障策略进行避障。虽然该方法使用了Faster R-CNN模型进行图形识别，具有较高的物体识别率，但是避障策略的制定是人工指定的。而人工指定的避障策略在一些情况下不是最优的。在《基于深度强化学习的无人机自主避障系统及方法》(专利，公布号：CN 114326821 A，公布日期：2022.04.12)中，通过完全卷积神经网络处理图像后获取深度图像，并根据深度图像数据通过深度强化学习方法训练无人机进行避障。但是该方法无法辨别出现在图像中的不同物体，即无法区别一般物体与障碍物，这限制了避障效果。

目前，由于高精度的物体检测模型的计算较慢，深度强化学习方法所需的训练步数较多，当前的图像导航方法均无法实现高精度障碍物识别率下的无人机最优避障。因此，设计出可以实现基于图像检测模型的深度强化学习加速训练方法具有重要意义。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种面向无人机图像导航的深度强化学习加速训练方法。主要用于无人机执行图像导航任务。当前，面向图像导航的深度强化学习方法中需要物体检测模型来识别指定物体。识别率越高的物体检测模型需要的计算量也越大，这将导致深度强化学习方法的训练时间较长且对于计算机硬件的要求较高。因此，本发明提出了一种面向无人机图像导航的深度强化学习加速训练方法。通过该方法可以有效减少基于深度强化学习方法的训练时间，并降低训练计算量。

技术方案

一种面向无人机图像导航的深度强化学习加速训练方法，其特征在于包括物体检测模型的训练和动作选择策略的训练，训练步骤如下：

物体检测模型的训练：

步骤1：在包含障碍物的图像s_o中标注障碍物信息

其中t_o是障碍物的类型，

是障碍物在s_o中的坐标；

步骤2：初始化物体检测模型；

步骤3：将包含障碍物的图像s_o及标注障碍物信息

输入至物体检测模型中，对物体检测模型进行训练，获得可识别障碍物的物体检测模型，识别结果为障碍物在图像中的位置obs_posImage；

步骤4：根据物体检测模型输出值obs_posImage的特性，通过障碍物的实际坐标p_o计算物体检测模型的模拟输出obs′_posImage；

障碍物在视野框中的相对坐标是：

obs′_posImage＝(obs′_{posImage_X},obs′_{posImage_Y})

其中：

(obs_x,obs_y,0)是障碍物的实际位置；(P2_x,P2_y)是视野框左上角顶点的坐标；Δχ是坐标系的旋转量；

无障碍物进入视野框时，物体检测模型的模拟输出obs′_posImage＝(0,0)；

动作选择策略的训练：

步骤5：定义深度强化学习方法中的状态s(t)、动作a(t)及奖励函数R；

状态s(t)：s(t)＝(obs′_posImage,p_u,p_g)，其中，目的地坐标为p_g，无人机的坐标为p_u；

无人机可执行动作a(t)描述为左转或右转；

奖励函数R：当发生碰撞或出界时扣1分，当到达终点时奖励1分；

步骤6、训练初始化：将动作选择策略π(·)中预测网络的参数定义为θ，将目标网络的参数定义为θ^-；

步骤7：将状态s(t)输入至动作选择策略π(θ)中，得到选择动作a_U(t)；

步骤8：执行动作a_U(t)后，根据奖励函数R获得奖励r_U，并将执行动作a_U(t)后的状态作为新的状态s(t+1)；

步骤9：将(s(t),a_U(t),r,s(t+1))存入经验池；

步骤10：从经验池中随机抽取经验，计算损失值，通过梯度下降算法根据损失函数L(θ)对选择策略的参数θ进行优化，获得实现图像导航的动作选择策略π(θ)；

以损失函数L(θ)计算损失值为：

L(θ)＝E(y-Q(s(t),a_U(t),θ))

其中，γ为折扣率，

是目标网络的输出，Q(·)是预测网络的输出。

所述物体检测模型采用R-CNN系列、YOLO系列物体检测模型。

所述动作选择策略π(θ)的结构为29×512×128×6，其中29是输入节点的数量，6是输出节点的数量。

有益效果

本发明提出的一种面向无人机图像导航的深度强化学习加速训练方法，包括物体检测模型的训练和动作选择策略的训练。其中，动作选择策略的训练是根据物体检测模型的模拟输出值并通过深度强化学习方法进行的。

在基于图像的深度强化学习方法的训练中使用图像检测模型的模拟输出值代替图像检测模型的输出值来加速训练，该方法有如下优势：

(1)减少训练耗时

由于图像检测模型的网络层数较多且网络结构较为复杂，其真实输出值的计算耗时相对较长。而本发明提出的模拟值计算的耗时小于图像检测模型计算输出的耗时，这使得基于图像的深度强化学习方法训练的总耗时得到降低。

(2)降低GPU使用率及显存占比

由于图像检测模型的计算是在GPU上进行的，识别精度越高的图像检测模型对于GPU及显存的要求越高，这限制了基于图像的深度强化学习方法的使用场景。本发明提出的加速训练方法将深度强化学习的训练移动到CPU上进行，这有效降低了训练对硬件的要求。

(3)通用性较强

本发明提出的加速训练方法使用了图像检测模型的模拟输出值，该模拟输出值的计算是根据图像检测模型输出的特性由待识别物体的坐标计算出来的，这使得该加速训练方法中模拟值的计算方法适合于模拟大多数图像识别模型的输出，因此通用性较强。

附图说明

图1：Faster R-CNN模型识别结果

图2：视野框中心点的计算

图3：视野框侧边中点的计算

图4：视野框顶点的计算

图5：本发明方法流程图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

面向无人机图像导航的深度强化学习加速训练方法，包括物体检测模型的训练和动作选择策略的训练。其中，动作选择策略的训练是根据物体检测模型的模拟输出值并通过深度强化学习方法进行的。

物体检测模型的训练包括以下步骤：

步骤1：获取包含障碍物的图像s_o；

步骤2：标注图像s_o中的障碍物信息

其中t_o是障碍物的类型，

是障碍物在s_o中的坐标；

步骤3：初始化物体检测模型；

步骤4：通过包含障碍物的图像s_o及标注信息i_o对物体检测模型进行训练；

步骤5：训练完成，获得可识别障碍物的物体检测模型，识别结果为障碍物在图像中的位置obs_posImage。

进一步地，根据物体检测模型输出值obs_posImage的特性，通过障碍物的实际坐标p_o计算物体检测模型的模拟输出obs′_posImage。

步骤1：获取无人机的位置p_u＝(x_U,y_U,z_U)，无人机的航向角χ，障碍物的实际位置p_o＝(obs_x,obs_y,0)；

步骤2：根据无人机位置(x_U,y_U)计算视野框顶点P1、P2、P3、P4坐标；

步骤2-1：通过障碍物的实际坐标p_o计算视野框的中心点坐标C＝(C_x,C_y)；

其中，(x_image,y_image)是视野框的尺寸，τ₁是比例尺，d_c是视野框与无人机的距离。当摄像头固定到无人机上后，在无人机正常航行期间，(x_image,y_image)、τ₁、d_c是固定值。

步骤2-2：根据视野框中心点坐标C计算视野框侧边的中点A、B；

步骤2-3：根据A、B点的坐标计算视野框顶点坐标P1、P2、P3、P4；

步骤3：根据坐标P1、P2、P3、P4判断是否有障碍物进入视野框；

F1_in＝(P2_x-P1_x)*(obs_y-P1_y)-(P2_y-P1_y)*(obs_x-P1_x)

F2_in＝(P3_x-P2_x)*(obs_y-P2_y)-(P3_y-P2_y)*(obs_x-P2_x)

F3_in＝(P4_x-P3_x)*(obs_y-P3_y)-(P4_y-P3_y)*(obs_x-P3_x)

F4_in＝(P1_x-P4_x)*(obs_y-P4_y)-(P1_y-P4_y)*(obs_x-P4_x)

其中，当F1_in＞0,F2_in＞0,F3_in＞0,F4_in＞0或F1_in＜0,F2_in＜0,F3_in＜0,F4_in＜0，则有障碍物进入视野框。否则无障碍物进入视野框；

步骤4：根据障碍物是否进入视野框计算物体检测模型的模拟输出obs′_posImage；

有障碍物进入视野框时，根据障碍物的实际位置p_o、视野框的顶点P2、无人机的航向角χ、无人机的相对航向角χ′计算物体检测模型的模拟输出obs′_posImage。

计算坐标系的旋转量Δχ

Δχ＝χ-χ′

障碍物在视野框中的相对坐标是obs′_posImage＝(obs′_{posImage_X},obs′_{posImage_Y})，其中

obs′_{posImage_X}＝(obs_x-P2_x)·cosΔχ+(obs_y-P2_y)·sinΔχ

obs′_{posImage_Y}＝(obs_x-P2_x)·sinΔχ-(obs_y-P2_y)·cosΔχ

当无障碍物进入视野框时，obs′_posImage＝(0,0)。

进一步地，根据物体检测模型的模拟输出obs′_posImage，通过深度强化学习方法训练动作选择策略π(θ)，主要包括以下步骤：

步骤1：定义深度强化学习方法中的状态s(t)、动作a(t)及奖励函数R；

将状态s(t)定义为

s(t)＝(obs′_posImage,p_u,p_g)

其中，目的地坐标为p_g。

无人机可执行动作a(t)描述为左转或右转；

将奖励函数R定义为：当发生碰撞时扣分，当到达终点时奖励；

步骤2：训练初始化。将动作选择策略π(·)中预测网络的参数定义为θ，将目标网络的参数定义为θ^-；

步骤3：根据动作选择策略π(θ)和状态s(t)选择动作a(t)；

步骤4：执行动作a(t)后，根据奖励函数R获得奖励r，并从环境中获取新的状态s(t+1)；

步骤5：将(s(t),a(t),r,s(t+1))存入经验池；

步骤6：从经验池中抽取经验优化动作选择策略π(θ)；

将损失函数L(θ)定义为

L(θ)＝E(y-Q(s(t),a_U(t),θ))

其中，γ为折扣率；

通过梯度下降算法根据损失函数L(θ)对选择策略的参数θ进行优化；

训练完成，获得可以实现图像导航的动作选择策略π(θ)

本实施例首先通过包含障碍物的图像训练物体检测模型识别障碍物，然后根据物体检测模型输出值的特性计算物体检测模型的模拟输出值，最后基于该模拟值通过深度强化学习方法训练动作选择策略。其中，物体检测模型的模拟值是根据障碍物真实坐标计算得到的。

在本实施例中，物体检测模型使用Faster R-CNN模型。

物体检测模型的训练包括以下步骤：

步骤1：获取包含障碍物的图像s_o。该图像可以由无人机的机载相机在航行过程中捕获并保存；

步骤2：标注图像s_o中的障碍物信息

其中t_o是障碍物的类型，

是障碍物在s_o中的坐标；

步骤3：初始化物体检测模型。在本实施例中，通过预训练模型VGG16初始化Faster-R CNN模型。其中，将Faster-R CNN模型的初始学习率设定为0.001、延迟系数设定为0.1、延迟权重设置为0.0005；

步骤5：训练完成，获得可识别障碍物的物体检测模型，识别结果为障碍物在图像中的位置obs_posImage，如图1所示。在训练时，指定的待识别障碍物为图中灰色的物体，包括“obstacle”字符框的左下角就是障碍物所在的位置。

进一步地，根据物体检测模型输出值obs_posImage的特性，通过障碍物的实际坐标p_o计算物体检测模型的模拟输出obs′_posImage；

步骤1：获取无人机的位置p_u＝(x_U,y_U,z_U)，无人机的航向角χ，障碍物的实际位置p_o＝(obs_x,obs_y,0)。其中，无人机位置由GPS获得，无人机的航向角χ可以由陀螺仪获得。在训练时，障碍物的实际坐标p_o是随机生成的；

步骤2-1：通过障碍物的实际坐标p_o计算视野框的中心点坐标C＝(C_x,C_y)，如图2所示；

其中，(x_image,y_image)是视野框的尺寸，τ₁是比例尺，d_c是视野框与无人机的距离。当摄像头固定到无人机上后，在无人机正常航行期间，(x_image,y_image)、τ₁、d_c是固定值。在本实施例中，(x_image,y_image)＝(1000，600)，d_c＝624m，τ₁＝2.5；

步骤2-2：根据视野框中心点坐标C计算视野框侧边的中点A、B，如图3所示；

步骤2-3：根据A、B点的坐标计算视野框顶点坐标P1、P2、P3、P4，如图4所示；

F1_in＝(P2_x-P1_x)*(obs_y-P1_y)-(P2_y-P1_y)*(obs_x-P1_x)

F2_in＝(P3_x-P2_x)*(obs_y-P2_y)-(P3_y-P2_y)*(obs_x-P2_x)

F3_in＝(P4_x-P3_x)*(obs_y-P3_y)-(P4_y-P3_y)*(obs_x-P3_x)

F4_in＝(P1_x-P4_x)*(obs_y-P4_y)-(P1_y-P4_y)*(obs_x-P4_x)

步骤4：有障碍物进入视野框时，根据障碍物的实际位置p_o、视野框的顶点P2、无人机的航向角χ、无人机的相对航向角χ′计算物体检测模型的模拟输出obs′_posImage。本实施例中，χ′＝90°；

计算坐标系的旋转量Δχ

Δχ＝χ-χ′

obs′_{posImage_X}＝(obs_x-P2_x)·cosΔχ+(obs_y-P2_y)·sinΔχ

obs′_{posImage_Y}＝(obs_x-P2_x)·sinΔχ-(obs_y-P2_y)·cosΔχ

当无障碍物进入视野框时，obs′_posImage＝(0,0)；

进一步地，根据物体检测模型的模拟输出obs′_posImage，通过深度强化学习方法训练动作选择策略π(θ)，如图5所示，主要包括以下步骤：

将状态s(t)定义为

s(t)＝(obs′_posImage,p_u,p_g)

其中，目的地坐标为p_g。

无人机可执行动作a(t)描述为左转或右转；

将奖励函数R定义为：当发生碰撞时扣分，当到达终点时奖励。在本实施例中，当无人机与障碍物碰撞时扣1分，当无人机到达目的地时奖励1分，其余情况奖励为0；

步骤2：训练初始化；

将动作选择策略π(·)中预测网络的参数定义为θ，将目标网络的参数定义为θ^-；

步骤3：根据动作选择策略π(θ)和状态s(t)选择动作a(t)；

步骤5：将(s(t),a(t),r,s(t+1))存入经验池；

步骤6：从经验池中抽取经验优化动作选择策略π(θ)；

将损失函数L(θ)定义为

L(θ)＝E(y-Q(s(t),a_U(t),θ))

其中，γ为折扣率。在本实施例中，γ＝0.95；

训练完成，获得可以实现图像导航的动作选择策略π(θ)。