CN115345281A - 一种面向无人机图像导航的深度强化学习加速训练方法 - Google Patents

一种面向无人机图像导航的深度强化学习加速训练方法 Download PDF

Info

Publication number
CN115345281A
CN115345281A CN202211003481.2A CN202211003481A CN115345281A CN 115345281 A CN115345281 A CN 115345281A CN 202211003481 A CN202211003481 A CN 202211003481A CN 115345281 A CN115345281 A CN 115345281A
Authority
CN
China
Prior art keywords
training
detection model
obstacle
obs
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211003481.2A
Other languages
English (en)
Inventor
祝小平
王飞
祝宁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aisheng Technology Group Co Ltd
Original Assignee
Xian Aisheng Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aisheng Technology Group Co Ltd filed Critical Xian Aisheng Technology Group Co Ltd
Priority to CN202211003481.2A priority Critical patent/CN115345281A/zh
Publication of CN115345281A publication Critical patent/CN115345281A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Databases & Information Systems (AREA)
  • Neurology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种面向无人机图像导航的深度强化学习加速训练方法,包括物体检测模型的训练和动作选择策略的训练。其中,动作选择策略的训练是根据物体检测模型的模拟输出值并通过深度强化学习方法进行的。在基于图像的深度强化学习方法的训练中使用图像检测模型的模拟输出值代替图像检测模型的输出值来加速训练,该方法有如下优势:减少训练耗时,降低GPU使用率及显存占比和通用性较强。

Description

一种面向无人机图像导航的深度强化学习加速训练方法
技术领域
本发明属于计算机视觉领域,涉及一种面向无人机图像导航的深度强化学习加速训练方法。
背景技术
随着科技的发展,无人机已经广泛应用于军用和民用领域。在一些军事场景中,考虑到战场的复杂性,为了应对可能出现的无人机通信系统与雷达不可用情况,需要无人机具有通过机载相机进行图像导航的能力。在民用场景中,由于机载相机便携性高且价格低廉,也已广泛装载于无人机中。因此,实现基于图像的无人机导航具有重要意义。
近年来,随着计算机视觉技术的发展,物体检测技术的识别率提升明显。为了实现无人机更精准的图像导航,可以通过物体检测模型识别图像中的障碍物。但是,由于物体检测模型的网络较为复杂且网络层数较多,其输出值的计算耗时相对较久。而基于图像的深度强化学习训练方法是一种无监督算法,为了得到可以实现指定目的的决策网络,需要经过大量训练。因此,这限制了物体检测模型在深度强化学习方法中的应用。
在《基于图像和点云的无人机障碍物检测和避障方法及系统》(专利,公布号:CN114581831 A,公布日期:2022.06.03)中,通过物体检测模型识别图像中的障碍物,再参考识别结果根据指定的避障策略进行避障。虽然该方法使用了Faster R-CNN模型进行图形识别,具有较高的物体识别率,但是避障策略的制定是人工指定的。而人工指定的避障策略在一些情况下不是最优的。在《基于深度强化学习的无人机自主避障系统及方法》(专利,公布号:CN 114326821 A,公布日期:2022.04.12)中,通过完全卷积神经网络处理图像后获取深度图像,并根据深度图像数据通过深度强化学习方法训练无人机进行避障。但是该方法无法辨别出现在图像中的不同物体,即无法区别一般物体与障碍物,这限制了避障效果。
目前,由于高精度的物体检测模型的计算较慢,深度强化学习方法所需的训练步数较多,当前的图像导航方法均无法实现高精度障碍物识别率下的无人机最优避障。因此,设计出可以实现基于图像检测模型的深度强化学习加速训练方法具有重要意义。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种面向无人机图像导航的深度强化学习加速训练方法。主要用于无人机执行图像导航任务。当前,面向图像导航的深度强化学习方法中需要物体检测模型来识别指定物体。识别率越高的物体检测模型需要的计算量也越大,这将导致深度强化学习方法的训练时间较长且对于计算机硬件的要求较高。因此,本发明提出了一种面向无人机图像导航的深度强化学习加速训练方法。通过该方法可以有效减少基于深度强化学习方法的训练时间,并降低训练计算量。
技术方案
一种面向无人机图像导航的深度强化学习加速训练方法,其特征在于包括物体检测模型的训练和动作选择策略的训练,训练步骤如下:
物体检测模型的训练:
步骤1:在包含障碍物的图像so中标注障碍物信息
Figure BDA0003807897350000021
其中to是障碍物的类型,
Figure BDA0003807897350000022
是障碍物在so中的坐标;
步骤2:初始化物体检测模型;
步骤3:将包含障碍物的图像so及标注障碍物信息
Figure BDA0003807897350000023
输入至物体检测模型中,对物体检测模型进行训练,获得可识别障碍物的物体检测模型,识别结果为障碍物在图像中的位置obsposImage
步骤4:根据物体检测模型输出值obsposImage的特性,通过障碍物的实际坐标po计算物体检测模型的模拟输出obs′posImage
障碍物在视野框中的相对坐标是:
obs′posImage=(obs′posImage_X,obs′posImage_Y)
其中:
Figure BDA0003807897350000031
(obsx,obsy,0)是障碍物的实际位置;(P2x,P2y)是视野框左上角顶点的坐标;Δχ是坐标系的旋转量;
无障碍物进入视野框时,物体检测模型的模拟输出obs′posImage=(0,0);
动作选择策略的训练:
步骤5:定义深度强化学习方法中的状态s(t)、动作a(t)及奖励函数R;
状态s(t):s(t)=(obs′posImage,pu,pg),其中,目的地坐标为pg,无人机的坐标为pu
无人机可执行动作a(t)描述为左转或右转;
奖励函数R:当发生碰撞或出界时扣1分,当到达终点时奖励1分;
步骤6、训练初始化:将动作选择策略π(·)中预测网络的参数定义为θ,将目标网络的参数定义为θ-
步骤7:将状态s(t)输入至动作选择策略π(θ)中,得到选择动作aU(t);
步骤8:执行动作aU(t)后,根据奖励函数R获得奖励rU,并将执行动作aU(t)后的状态作为新的状态s(t+1);
步骤9:将(s(t),aU(t),r,s(t+1))存入经验池;
步骤10:从经验池中随机抽取经验,计算损失值,通过梯度下降算法根据损失函数L(θ)对选择策略的参数θ进行优化,获得实现图像导航的动作选择策略π(θ);
以损失函数L(θ)计算损失值为:
L(θ)=E(y-Q(s(t),aU(t),θ))
Figure BDA0003807897350000041
其中,γ为折扣率,
Figure BDA0003807897350000042
是目标网络的输出,Q(·)是预测网络的输出。
所述物体检测模型采用R-CNN系列、YOLO系列物体检测模型。
所述动作选择策略π(θ)的结构为29×512×128×6,其中29是输入节点的数量,6是输出节点的数量。
有益效果
本发明提出的一种面向无人机图像导航的深度强化学习加速训练方法,包括物体检测模型的训练和动作选择策略的训练。其中,动作选择策略的训练是根据物体检测模型的模拟输出值并通过深度强化学习方法进行的。
在基于图像的深度强化学习方法的训练中使用图像检测模型的模拟输出值代替图像检测模型的输出值来加速训练,该方法有如下优势:
(1)减少训练耗时
由于图像检测模型的网络层数较多且网络结构较为复杂,其真实输出值的计算耗时相对较长。而本发明提出的模拟值计算的耗时小于图像检测模型计算输出的耗时,这使得基于图像的深度强化学习方法训练的总耗时得到降低。
(2)降低GPU使用率及显存占比
由于图像检测模型的计算是在GPU上进行的,识别精度越高的图像检测模型对于GPU及显存的要求越高,这限制了基于图像的深度强化学习方法的使用场景。本发明提出的加速训练方法将深度强化学习的训练移动到CPU上进行,这有效降低了训练对硬件的要求。
(3)通用性较强
本发明提出的加速训练方法使用了图像检测模型的模拟输出值,该模拟输出值的计算是根据图像检测模型输出的特性由待识别物体的坐标计算出来的,这使得该加速训练方法中模拟值的计算方法适合于模拟大多数图像识别模型的输出,因此通用性较强。
附图说明
图1:Faster R-CNN模型识别结果
图2:视野框中心点的计算
图3:视野框侧边中点的计算
图4:视野框顶点的计算
图5:本发明方法流程图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
面向无人机图像导航的深度强化学习加速训练方法,包括物体检测模型的训练和动作选择策略的训练。其中,动作选择策略的训练是根据物体检测模型的模拟输出值并通过深度强化学习方法进行的。
物体检测模型的训练包括以下步骤:
步骤1:获取包含障碍物的图像so
步骤2:标注图像so中的障碍物信息
Figure BDA0003807897350000051
其中to是障碍物的类型,
Figure BDA0003807897350000052
是障碍物在so中的坐标;
步骤3:初始化物体检测模型;
步骤4:通过包含障碍物的图像so及标注信息io对物体检测模型进行训练;
步骤5:训练完成,获得可识别障碍物的物体检测模型,识别结果为障碍物在图像中的位置obsposImage
进一步地,根据物体检测模型输出值obsposImage的特性,通过障碍物的实际坐标po计算物体检测模型的模拟输出obs′posImage
步骤1:获取无人机的位置pu=(xU,yU,zU),无人机的航向角χ,障碍物的实际位置po=(obsx,obsy,0);
步骤2:根据无人机位置(xU,yU)计算视野框顶点P1、P2、P3、P4坐标;
步骤2-1:通过障碍物的实际坐标po计算视野框的中心点坐标C=(Cx,Cy);
Figure BDA0003807897350000061
Figure BDA0003807897350000062
其中,(ximage,yimage)是视野框的尺寸,τ1是比例尺,dc是视野框与无人机的距离。当摄像头固定到无人机上后,在无人机正常航行期间,(ximage,yimage)、τ1、dc是固定值。
步骤2-2:根据视野框中心点坐标C计算视野框侧边的中点A、B;
Figure BDA0003807897350000063
Figure BDA0003807897350000064
Figure BDA0003807897350000065
Figure BDA0003807897350000066
步骤2-3:根据A、B点的坐标计算视野框顶点坐标P1、P2、P3、P4;
Figure BDA0003807897350000067
Figure BDA0003807897350000068
Figure BDA0003807897350000069
Figure BDA00038078973500000610
Figure BDA00038078973500000611
Figure BDA00038078973500000612
Figure BDA00038078973500000613
Figure BDA00038078973500000614
步骤3:根据坐标P1、P2、P3、P4判断是否有障碍物进入视野框;
F1in=(P2x-P1x)*(obsy-P1y)-(P2y-P1y)*(obsx-P1x)
F2in=(P3x-P2x)*(obsy-P2y)-(P3y-P2y)*(obsx-P2x)
F3in=(P4x-P3x)*(obsy-P3y)-(P4y-P3y)*(obsx-P3x)
F4in=(P1x-P4x)*(obsy-P4y)-(P1y-P4y)*(obsx-P4x)
其中,当F1in>0,F2in>0,F3in>0,F4in>0或F1in<0,F2in<0,F3in<0,F4in<0,则有障碍物进入视野框。否则无障碍物进入视野框;
步骤4:根据障碍物是否进入视野框计算物体检测模型的模拟输出obs′posImage
有障碍物进入视野框时,根据障碍物的实际位置po、视野框的顶点P2、无人机的航向角χ、无人机的相对航向角χ′计算物体检测模型的模拟输出obs′posImage
计算坐标系的旋转量Δχ
Δχ=χ-χ′
障碍物在视野框中的相对坐标是obs′posImage=(obs′posImage_X,obs′posImage_Y),其中
obs′posImage_X=(obsx-P2x)·cosΔχ+(obsy-P2y)·sinΔχ
obs′posImage_Y=(obsx-P2x)·sinΔχ-(obsy-P2y)·cosΔχ
当无障碍物进入视野框时,obs′posImage=(0,0)。
进一步地,根据物体检测模型的模拟输出obs′posImage,通过深度强化学习方法训练动作选择策略π(θ),主要包括以下步骤:
步骤1:定义深度强化学习方法中的状态s(t)、动作a(t)及奖励函数R;
将状态s(t)定义为
s(t)=(obs′posImage,pu,pg)
其中,目的地坐标为pg
无人机可执行动作a(t)描述为左转或右转;
将奖励函数R定义为:当发生碰撞时扣分,当到达终点时奖励;
步骤2:训练初始化。将动作选择策略π(·)中预测网络的参数定义为θ,将目标网络的参数定义为θ-
步骤3:根据动作选择策略π(θ)和状态s(t)选择动作a(t);
步骤4:执行动作a(t)后,根据奖励函数R获得奖励r,并从环境中获取新的状态s(t+1);
步骤5:将(s(t),a(t),r,s(t+1))存入经验池;
步骤6:从经验池中抽取经验优化动作选择策略π(θ);
将损失函数L(θ)定义为
L(θ)=E(y-Q(s(t),aU(t),θ))
Figure BDA0003807897350000081
其中,γ为折扣率;
通过梯度下降算法根据损失函数L(θ)对选择策略的参数θ进行优化;
训练完成,获得可以实现图像导航的动作选择策略π(θ)
本实施例首先通过包含障碍物的图像训练物体检测模型识别障碍物,然后根据物体检测模型输出值的特性计算物体检测模型的模拟输出值,最后基于该模拟值通过深度强化学习方法训练动作选择策略。其中,物体检测模型的模拟值是根据障碍物真实坐标计算得到的。
在本实施例中,物体检测模型使用Faster R-CNN模型。
物体检测模型的训练包括以下步骤:
步骤1:获取包含障碍物的图像so。该图像可以由无人机的机载相机在航行过程中捕获并保存;
步骤2:标注图像so中的障碍物信息
Figure BDA0003807897350000082
其中to是障碍物的类型,
Figure BDA0003807897350000083
是障碍物在so中的坐标;
步骤3:初始化物体检测模型。在本实施例中,通过预训练模型VGG16初始化Faster-R CNN模型。其中,将Faster-R CNN模型的初始学习率设定为0.001、延迟系数设定为0.1、延迟权重设置为0.0005;
步骤4:通过包含障碍物的图像so及标注信息io对物体检测模型进行训练;
步骤5:训练完成,获得可识别障碍物的物体检测模型,识别结果为障碍物在图像中的位置obsposImage,如图1所示。在训练时,指定的待识别障碍物为图中灰色的物体,包括“obstacle”字符框的左下角就是障碍物所在的位置。
进一步地,根据物体检测模型输出值obsposImage的特性,通过障碍物的实际坐标po计算物体检测模型的模拟输出obs′posImage
步骤1:获取无人机的位置pu=(xU,yU,zU),无人机的航向角χ,障碍物的实际位置po=(obsx,obsy,0)。其中,无人机位置由GPS获得,无人机的航向角χ可以由陀螺仪获得。在训练时,障碍物的实际坐标po是随机生成的;
步骤2:根据无人机位置(xU,yU)计算视野框顶点P1、P2、P3、P4坐标;
步骤2-1:通过障碍物的实际坐标po计算视野框的中心点坐标C=(Cx,Cy),如图2所示;
Figure BDA0003807897350000091
Figure BDA0003807897350000092
其中,(ximage,yimage)是视野框的尺寸,τ1是比例尺,dc是视野框与无人机的距离。当摄像头固定到无人机上后,在无人机正常航行期间,(ximage,yimage)、τ1、dc是固定值。在本实施例中,(ximage,yimage)=(1000,600),dc=624m,τ1=2.5;
步骤2-2:根据视野框中心点坐标C计算视野框侧边的中点A、B,如图3所示;
Figure BDA0003807897350000093
Figure BDA0003807897350000094
Figure BDA0003807897350000095
Figure BDA0003807897350000096
步骤2-3:根据A、B点的坐标计算视野框顶点坐标P1、P2、P3、P4,如图4所示;
Figure BDA0003807897350000101
Figure BDA0003807897350000102
Figure BDA0003807897350000103
Figure BDA0003807897350000104
Figure BDA0003807897350000105
Figure BDA0003807897350000106
Figure BDA0003807897350000107
Figure BDA0003807897350000108
步骤3:根据坐标P1、P2、P3、P4判断是否有障碍物进入视野框;
F1in=(P2x-P1x)*(obsy-P1y)-(P2y-P1y)*(obsx-P1x)
F2in=(P3x-P2x)*(obsy-P2y)-(P3y-P2y)*(obsx-P2x)
F3in=(P4x-P3x)*(obsy-P3y)-(P4y-P3y)*(obsx-P3x)
F4in=(P1x-P4x)*(obsy-P4y)-(P1y-P4y)*(obsx-P4x)
其中,当F1in>0,F2in>0,F3in>0,F4in>0或F1in<0,F2in<0,F3in<0,F4in<0,则有障碍物进入视野框。否则无障碍物进入视野框;
步骤4:有障碍物进入视野框时,根据障碍物的实际位置po、视野框的顶点P2、无人机的航向角χ、无人机的相对航向角χ′计算物体检测模型的模拟输出obs′posImage。本实施例中,χ′=90°;
计算坐标系的旋转量Δχ
Δχ=χ-χ′
障碍物在视野框中的相对坐标是obs′posImage=(obs′posImage_X,obs′posImage_Y),其中
obs′posImage_X=(obsx-P2x)·cosΔχ+(obsy-P2y)·sinΔχ
obs′posImage_Y=(obsx-P2x)·sinΔχ-(obsy-P2y)·cosΔχ
当无障碍物进入视野框时,obs′posImage=(0,0);
进一步地,根据物体检测模型的模拟输出obs′posImage,通过深度强化学习方法训练动作选择策略π(θ),如图5所示,主要包括以下步骤:
步骤1:定义深度强化学习方法中的状态s(t)、动作a(t)及奖励函数R;
将状态s(t)定义为
s(t)=(obs′posImage,pu,pg)
其中,目的地坐标为pg
无人机可执行动作a(t)描述为左转或右转;
将奖励函数R定义为:当发生碰撞时扣分,当到达终点时奖励。在本实施例中,当无人机与障碍物碰撞时扣1分,当无人机到达目的地时奖励1分,其余情况奖励为0;
步骤2:训练初始化;
将动作选择策略π(·)中预测网络的参数定义为θ,将目标网络的参数定义为θ-
步骤3:根据动作选择策略π(θ)和状态s(t)选择动作a(t);
步骤4:执行动作a(t)后,根据奖励函数R获得奖励r,并从环境中获取新的状态s(t+1);
步骤5:将(s(t),a(t),r,s(t+1))存入经验池;
步骤6:从经验池中抽取经验优化动作选择策略π(θ);
将损失函数L(θ)定义为
L(θ)=E(y-Q(s(t),aU(t),θ))
Figure BDA0003807897350000111
其中,γ为折扣率。在本实施例中,γ=0.95;
通过梯度下降算法根据损失函数L(θ)对选择策略的参数θ进行优化;
训练完成,获得可以实现图像导航的动作选择策略π(θ)。

Claims (3)

1.一种面向无人机图像导航的深度强化学习加速训练方法,其特征在于包括物体检测模型的训练和动作选择策略的训练,训练步骤如下:
物体检测模型的训练:
步骤1:在包含障碍物的图像so中标注障碍物信息
Figure FDA0003807897340000011
其中to是障碍物的类型,
Figure FDA0003807897340000012
是障碍物在so中的坐标;
步骤2:初始化物体检测模型;
步骤3:将包含障碍物的图像so及标注障碍物信息
Figure FDA0003807897340000013
输入至物体检测模型中,对物体检测模型进行训练,获得可识别障碍物的物体检测模型,识别结果为障碍物在图像中的位置obsposImage
步骤4:根据物体检测模型输出值obsposImage的特性,通过障碍物的实际坐标po计算物体检测模型的模拟输出obs′posImage
障碍物在视野框中的相对坐标是:
obs′posImage=(obs′posImage_X,obs′posImage_Y)
其中:
Figure FDA0003807897340000014
(obsx,obsy,0)是障碍物的实际位置;(P2x,P2y)是视野框左上角顶点的坐标;Δχ是坐标系的旋转量;
无障碍物进入视野框时,物体检测模型的模拟输出obs′posImage=(0,0);
动作选择策略的训练:
步骤5:定义深度强化学习方法中的状态s(t)、动作a(t)及奖励函数R;
状态s(t):s(t)=(obs′posImage,pu,pg),其中,目的地坐标为pg,无人机的坐标为pu
无人机可执行动作a(t)描述为左转或右转;
奖励函数R:当发生碰撞或出界时扣1分,当到达终点时奖励1分;
步骤6、训练初始化:将动作选择策略π(·)中预测网络的参数定义为θ,将目标网络的参数定义为θ-
步骤7:将状态s(t)输入至动作选择策略π(θ)中,得到选择动作aU(t);
步骤8:执行动作aU(t)后,根据奖励函数R获得奖励rU,并将执行动作aU(t)后的状态作为新的状态s(t+1);
步骤9:将(s(t),aU(t),r,s(t+1))存入经验池;
步骤10:从经验池中随机抽取经验,计算损失值,通过梯度下降算法根据损失函数L(θ)对选择策略的参数θ进行优化,获得实现图像导航的动作选择策略π(θ);
以损失函数L(θ)计算损失值为:
L(θ)=E(y-Q(s(t),aU(t),θ))
Figure FDA0003807897340000021
其中,γ为折扣率,
Figure FDA0003807897340000022
是目标网络的输出,Q(·)是预测网络的输出。
2.根据权利要求1所述面向无人机图像导航的深度强化学习加速训练方法,其特征在于:所述物体检测模型采用R-CNN系列、YOLO系列物体检测模型。
3.根据权利要求1所述面向无人机图像导航的深度强化学习加速训练方法,其特征在于:所述动作选择策略π(θ)的结构为29×512×128×6,其中29是输入节点的数量,6是输出节点的数量。
CN202211003481.2A 2022-08-21 2022-08-21 一种面向无人机图像导航的深度强化学习加速训练方法 Pending CN115345281A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211003481.2A CN115345281A (zh) 2022-08-21 2022-08-21 一种面向无人机图像导航的深度强化学习加速训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211003481.2A CN115345281A (zh) 2022-08-21 2022-08-21 一种面向无人机图像导航的深度强化学习加速训练方法

Publications (1)

Publication Number Publication Date
CN115345281A true CN115345281A (zh) 2022-11-15

Family

ID=83954434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211003481.2A Pending CN115345281A (zh) 2022-08-21 2022-08-21 一种面向无人机图像导航的深度强化学习加速训练方法

Country Status (1)

Country Link
CN (1) CN115345281A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117492473A (zh) * 2023-11-10 2024-02-02 清华大学深圳国际研究生院 基于cpg控制及q学习的软体机器人路径规划方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117492473A (zh) * 2023-11-10 2024-02-02 清华大学深圳国际研究生院 基于cpg控制及q学习的软体机器人路径规划方法

Similar Documents

Publication Publication Date Title
CN111061277B (zh) 一种无人车全局路径规划方法和装置
Chen et al. Parallel planning: A new motion planning framework for autonomous driving
CN114384920B (zh) 一种基于局部栅格地图实时构建的动态避障方法
CN113537208B (zh) 一种基于语义orb-slam技术的视觉定位方法及系统
WO2020186678A1 (zh) 无人机三维地图构建方法、装置、计算机设备及存储介质
CN110189304B (zh) 基于人工智能的光学遥感图像目标在线快速检测方法
EP3686775B1 (en) Method for detecting pseudo-3d bounding box based on cnn capable of converting modes according to poses of objects using instance segmentation
CN109344878B (zh) 一种基于ResNet的仿鹰脑特征整合小目标识别方法
WO2021096629A1 (en) Geometry-aware instance segmentation in stereo image capture processes
CN111462131A (zh) 一种注意力驱动图像分割的方法和设备
CN110148177A (zh) 用于确定相机的姿态角的方法、装置、计算设备、计算机可读存储介质以及采集实体
CN115686052A (zh) 无人机避障路径规划方法、装置、计算机设备及存储介质
Li et al. Learning view and target invariant visual servoing for navigation
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
KR102309712B1 (ko) 객체의 조건에 따라 모드를 전환할 수 있는 CNN 기반으로 군사 목적, 스마트폰 또는 가상 주행에 사용되는 수도(Pseudo)-3D 바운딩 박스를 검출하는 방법 및 이를 이용한 장치
CN115345281A (zh) 一种面向无人机图像导航的深度强化学习加速训练方法
Badrloo et al. A novel region-based expansion rate obstacle detection method for MAVs using a fisheye camera
le Fevre Sejersen et al. Safe vessel navigation visually aided by autonomous unmanned aerial vehicles in congested harbors and waterways
CN114820463A (zh) 点云检测和分割方法、装置,以及,电子设备
Rao et al. Real time vision-based autonomous precision landing system for UAV airborne processor
CN116486290B (zh) 一种无人机监测追踪方法、装置、电子设备及存储介质
Gökçe et al. Recognition of dynamic objects from UGVs using Interconnected Neuralnetwork-based Computer Vision system
CN111008622B (zh) 一种图像对象检测方法、装置以及计算机可读存储介质
CN107742295A (zh) 一种基于视觉的立方星对接重构方法
CN112651986B (zh) 环境识别方法、识别装置、识别系统、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination