CN112711271B - 基于深度强化学习的自主导航无人机功率优化方法 - Google Patents

基于深度强化学习的自主导航无人机功率优化方法 Download PDF

Info

Publication number
CN112711271B
CN112711271B CN202011487635.0A CN202011487635A CN112711271B CN 112711271 B CN112711271 B CN 112711271B CN 202011487635 A CN202011487635 A CN 202011487635A CN 112711271 B CN112711271 B CN 112711271B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
neural network
training
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011487635.0A
Other languages
English (en)
Other versions
CN112711271A (zh
Inventor
陈旭
林椿珉
周知
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011487635.0A priority Critical patent/CN112711271B/zh
Publication of CN112711271A publication Critical patent/CN112711271A/zh
Application granted granted Critical
Publication of CN112711271B publication Critical patent/CN112711271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种在无人机驾驶应用中基于深度强化学习的功率优化方法,通过结合无人机所处环境状态特征,对卷积神经网络计算规模进行动态配置,达到低延时和高能效的自主导航任务执行。该发明首先设计并训练了能够接收不同大小输入层的深度神经网络,根据前置摄像头的图像输入计算出无人机的控制方向与速度;然后利用强化学习,根据当前时间块的环境复杂度、障碍混杂因子和历史动作向量,推断出适应于当前环境的计算功耗最优神经网络配置,以此提高无人机设备计算能耗的利用率,延长自主导航无人机的续航时间。

Description

基于深度强化学习的自主导航无人机功率优化方法
技术领域
本发明涉及边缘计算、深度学习、强化学习以及自动驾驶技术领域,更具体地,涉及一种基于深度强化学习的自主导航无人机功率优化方法。
背景技术
近年来,无人机的自主导航能力受到了机器人界的广泛关注,自主导航无人机的易部署、敏捷性和机动性等优点,让它在许多领域中得到了广泛的应用,例如消防检测、精准农业、快递配送和安全巡视等。传统实现自导航的方法是使用SLAM算法,它包括对给定地图的感知和对控制命令的计算两个过程。但是,将感知过程与控制过程分离,不仅阻碍了感知过程与控制过程之间的正反馈,还会产生视觉混叠和动态场景的变化,这可能会导致感知过程系统出现不可预测的错误。
深度神经网络为感知和控制的结合提供了一种可靠的方法,并且在实际应用中取得了不错的效果。这种基于监督学习的方法可以有效地从人的操作轨迹中学习,模拟出人的操作过程,这使得无人机即使没有GPS信号也能成功地在不同的场景中导航。然而,在学习通用化策略方面取得成功的同时,深度神经网络也具有较高的内存和计算能量需求,这直接转化为较高的功耗,缩短了无人机的续航时间。因此在能耗资源有限的无人机中实际部署深度神经网络受到了限制。
当前,在无人机上实现深度学习模型推理有两种方法:一是将计算任务上传到云端计算,无人机作为客户端将数据发送至云计算服务器,推理结束后将结果发送回移动无人机。然而,大量的数据(如图像和视频数据)通过长广域网数据传输到远端云服务器,造成了无人机上较大的端到端时延与能量消耗,并且由于无人机的移动性,其性能受带宽波动影响非常大,不能提供一个稳定的性能表现。二是将神经网络模型直接部署在无人机本地计算设备上实现高可靠和低时延推理,但由于深度学习模型通常需要较大的计算与存储开销,不能提供一个良好的功耗性能表现。因此,为了能够增大无人机续航能力,扩展实际应用部署,需要一种低时延与高效能耗的自主导航模型推理方式。。
发明内容
本发明为克服上述现有技术中的至少一个缺陷,提供一种基于深度强化学习的自主导航无人机功率优化方法,能够对功率进行优化,提升无人机续航时间。
为解决上述技术问题,本发明采用的技术方案是:一种基于深度强化学习的自主导航无人机功率优化方法,包括以下步骤:
S1.自主导航卷积神经网络的搭建与训练:将残差块与空间域金字塔池化层相结合,构建能够进行动态配置输入层大小的卷积神经网络;通过开源无人机仿真平台,采集用于训练自主导航任务的深度卷积模型的训练数据,并且使用采集到的训练数据对卷积神经网络进行有监督训练;
S2.基于强化学习的动态配置模块搭建与训练:无人机使用步骤S1中预训练完成的卷积神经网络在仿真平台中与环境进行飞行,并且通过不断与环境进行交互,使无人机能够不断更新模型,学习到当前所处的环境状态特征;利用强化学习模型的推断结果对卷积模型进行动态配置;
S3.将仿真环境训练的模型迁移到现实环境:搭建装载计算设备的物理无人机,在现实环境中采集少量数据对导航模型进行微调,将仿真环境中训练的模型部署到物理环境中。
在本发明中,通过结合无人机所处环境状态特征,对卷积神经网络计算规模进行动态配置,达到低延时和高能效的自主导航任务执行。该发明首先设计并训练了能够接收不同大小输入层的深度神经网络,根据前置摄像头的图像输入计算出无人机的控制方向与速度;然后利用强化学习,根据当前时间块的环境复杂度、障碍混杂因子和历史动作向量,推断出适应于当前环境的计算功耗最优神经网络配置,以此提高无人机设备计算能耗的利用率,延长自主导航无人机的续航时间。
进一步的,基于卷积神经网络的自主导航模型从无人机的前置摄像头获取三通道图像输入,推断出当前无人机的偏航角与碰撞概率,以此控制无人机的方向与速度。
进一步的,偏航角与碰撞概率共享同一个卷积网络进行多任务学习;所述的卷积网络主体部分包含3个残差块,在残差块之后加入了空间域金字塔池化层对不同的输出大小进行池化操作,空间域金字塔池化层将不同的输入大小计算结果映射到固定大小的输出,并将输出结果输入到2个全连接层,并采用ReLU层进行非线性激活;在最后的ReLU激活层计算结束之后,两个任务停止共享参数并分为两个不同的全连接层分支,一个进行偏航角的预测,另一个进行碰撞概率推断。
在本发明中,卷积神经网络旨在从无人机上的前视摄像头信息反应性地预测无人机偏航角度和碰撞概率,然后将其转化为飞行指令使得无人机能够沿着当前路径自主飞行并且能够躲避障碍物。为了减少模型复杂度与处理时间,两个任务共享网络的主体参数,最后分开为两个不同的全连接层。网络的主体部分包含3个残差块,残差块中的卷积核大小都为3x3,并且卷积核通道数分别为32、64和128。残差块中使用了1x1卷积核跳跃连接(shortcut)实现同等映射,缓解了在深度神经网络中训练的过程中梯度爆炸和梯度消失问题,并且容易优化,能够通过增加相当的深度来提高准确率。
由于在相同的计算频率下,不同大小的神经网络产生不同的功耗。计算规模大的神经网络需要更多的功率,但可以获得更复杂的环境特性。相比之下,较小规模的神经网络需要较少的计算能力,但它们不能处理复杂的环境。为了能够在同一个网络中能够配置不同大小的输入层,需要将不同计算规模的卷积层不同大小的输出映射为固定大小的输出,作为全连接层的输入。因此在残差块之后加入了空间域金字塔池化层对不同的输出大小进行池化操作。空间域金字塔池化层能将图像从细到粗划分,并聚合其中的局部特征,然后产生固定大小的输出作为全连接层或者其他分类器的输入。因此它能够从不同大小的尺度提取出图像的特征信息,大大地提高了模型的精度,并且能够让模型计算不同大小的图像输入,并且当图像输入规模越大时,对当前的环境描述更完整,能够从细粒度到粒度识别出图像特征因此具有更高的精度,但是也具有较大的计算能耗,图像输入规模越小则计算所需功耗就越低,环境感知力也更弱。因此可以根据当前环境状态来动态配置卷积网络的计算规模大小。
进一步的,在最后的ReLU激活层计算结束之后,两个任务停止共享参数分为两个不同的全连接层分支。第一个全连接层输出偏航角度,第二个全连接层输出碰撞概率。偏航角度的计算是一个回归问题,使用均方差MSE作为误差函数,而碰撞概率是一个二分类问题使用二元交叉熵BCE作为误差函数进行训练。但是,多分类网络进行简单的联合优化会出现严重的收敛问题,因为每个损失函数产生的梯度的大小非常不同。更具体地说,在训练过程中对这两种损失不施加权重会导致收敛到一个非常糟糕的结果。因此在训练过程中需要考虑对两个损失函数施加动态权重,让两个梯度维持在一个可比的水平,这可以看作是训练过程的一个特殊形式。
为了避免在训练过程中对这两种损失不施加权重而导致错误的收敛,采用动态权重的方式对模型进行训练,二元交叉熵所对应的权重系数具体可以表示为公式(1),其中均方差的权重系数恒为1;
Figure GDA0003539339210000041
其中,epoch为训练轮次;epoch0为轮次常量;
在训练过程中可以将decay设置为0.1将epoch0设置为10,使用初始学习率为0.001的Adam优化器进行优化并且每步指数衰减等于10-5
进一步的,所述的步骤S1中,通过在开源的AirSim仿真环境中操控无人机沿着不同路径进行飞行,采集训练数据捕捉路径和障碍物的线性特征;每一次飞行都会存储前置摄像头的带有时间戳的帧和对应的偏航角度;并且对数据集进行标注,远离障碍物的帧标记为0,帧碰撞标记为1,从而学习碰撞概率的推断。这个数据集包含(32x32、112x112、224x224和320x320)大小的大约90000张无人机飞行的图像,并以不同大小的图像平均分布。相同计算频率下,不同大小的输入所需要的计算功率不同,所对应的环境感知能力也不同,输入越大所具有的环境感知能力越强,所需要的功耗也随之增加。
进一步的,所述的步骤S2中,强化学习采用Actor-Critic算法进行训练,无人机飞行经过一个时间块t之后,观测状态
Figure GDA0003539339210000042
其中xt是平均碰撞概率,ot是环境复杂度观测值,
Figure GDA0003539339210000043
是前三次动作的集合向量;接收到状态st之后,强化学习模型训练好的策略计算出动作at代表卷积神经网络输入层的大小,对应不同的环境感知力与计算功耗;通过索贝尔算子对图像进行卷积,计算每一个像素的空间域信息,并且对每个像素的空间域信息的值取平均得出该图像的复杂度值;策略输出是一个动作集合的概率分布π:π(st,at)→[0,1];π(st,at)表示在状态st下采取动作at的概率;使用神经网络来表示策略,并且神经网络的参数为θ,此时基于神经网络的策略表示为πθ(st,at);每执行完一个动作之后会从环境中获取到一个奖励rt=-α|Ct-St|-βEt,其中Ct是时间块内的平均环境复杂度,St是图像大小对应无人机的功耗,Et是推断熵,表示的是卷积神经网络推断置信度。
强化学习策略可以使无人机能够对当前的环境状态做出准确的响应,使用Actor-Critic算法对模型进行训练,在基于策略的RL中,最优策略是通过直接操纵策略来计算的,而基于价值的函数通过找到最优值函数来隐式地找到最优策略。基于策略的RL在高维和随机的连续动作空间以及学习随机策略方面非常有效,而基于价值的RL在样品效率和稳定性方面表现出色。Actor-Critic方法结合了基于策略和基于价值的方法的优点,是一类具有较好性能及收敛保证的强化学习方法。
进一步的,所述的步骤S2中,训练过程采用策略梯度算法更新策略网络的参数θ,使用
Figure GDA0003539339210000051
代表优势函数,它表示在状态s下执行动作a所能获取的奖励与平均奖励相比是否具有优势;策略参数θ所对应的累积折现奖励的梯度描述为:
Figure GDA0003539339210000052
在实际运用中,使用动作执行轨迹的采样,并利用经验计算的优势A(st,at)作为
Figure GDA0003539339210000053
的无偏估计,每次根据以下策略梯度更新策略网络的参数:
Figure GDA0003539339210000054
式中,α'为学习率,
Figure GDA0003539339210000055
表示策略更新参数的方向,更新的幅度取决于当前状态st下执行动作at所取得的优势函数大小。因此梯度会向能获得更多奖励的方向上更新参数。
进一步的,为了能够在一个给定的经验中计算优势A(st,at),需要对价值函数的一个估计
Figure GDA0003539339210000056
表示从状态s出发采用策略πθ所能获得的奖励累积,Critic网络用于学习价值函数的估计,使用标准时序差分法来训练批评策略参数:
Figure GDA0003539339210000057
式中,
Figure GDA0003539339210000058
是对价值函数
Figure GDA0003539339210000059
的估计值,由Critic网络输出,α′为学习率;对于动作的一次执行(st,at,rt,st+1),优势函数A(st,at)估计为
Figure GDA00035393392100000510
进一步的,所述的步骤S3中,模型迁移到现实环境中使用F450无人机机架作为载体,将Pixhawk飞控连接到NvidiaJetson TX2嵌入式板载计算机中接受上层控制指令,前置摄像头使用MyntEye深度摄像头,并且通过USB向嵌入式板载计算机发送实时的图像数据作为卷积神经网络的输入。
进一步的,所述的步骤S3中,软件栈使用ROS架构实现,包含4个ROS节点进行协同工作:1)深度摄像头节点通过MyntEye API获取实时的视频帧进行发布;2)视觉导航节点接收来自深度摄像头节点进行卷积计算,推理出偏航角与碰撞概率;3)指令转化节点将视觉导航节点的控制信息转化为底层指令发送给无人机飞控,控制无人机飞行;4)动态配置节点获取当前的环境状态信息,执行卷积网络的配置动作,调整视频帧与对应输入大小配置。
与现有技术相比,有益效果是:本发明提供的一种基于深度强化学习的自主导航无人机功率优化方法,通过强化学习的方式结合无人机所处环境的状态特征动态配置用于导航推断的卷积神经网络计算规模,提高了在无人机计算设备上部署深度学习模型的计算功耗利用效率,扩展了无人机的应用范围。具体实现是结合残差块与空间域金字塔池化层实现导航模型,通过训练强化学习网络推断适应于当前环境的计算量,以此提高功耗利用率。相较于传统的基于云计算的方法和在设备直接部署的方法,本方法不仅能缩短深度学习模型推理时延,同时能够对功率进行优化,提升无人机续航时间。
附图说明
图1是本发明实施例中搭建的模型运行示例图。
图2是本发明实施例中用于导航的卷积神经网络模型示例图。
图3是本发明实施例中强化学习算法模型示例图。
图4是本发明实施例中不同输入规模下的计算设备功率结果图。
图5是本发明实施例中物理环境无人机结构图。
图6是本发明实施例中方法训练架构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
本实施例公开了一种基于深度强化学习的自动驾驶无人机功率优化方法,该方法是通过深度神经网络实现自主导航,并将强化学习进行结合,通过无人机所出环境状态推断出功率最优配置,提高无人机续航能力。具体包括以下步骤:
步骤1.卷积神经网络导航模型搭建
使用Keras框架搭建用于环境感知的深度卷积网络模型,由附图2所示,偏航角以及碰撞概率的推断共享网络的残差块与空间域金字塔池化层,最后经过ReLU激活之后分为两个全连接层分支,进行多任务学习。其中卷积块中的卷积核大小都为3x3,并且卷积核通道数分别为32、64和128。残差块中使用了1x1卷积核跳跃连接(shortcut)实现同等映射。采用3层金字塔将不同计算规模结果池化到固定大小的输出之后,传入到全连接层进行分类计算,3个池化层大小分别为4x4、2x2和1x1,分别从不同的尺度提取图像中的特征。计算结果将会输入给两层全连接层,每层均包含有380个节点,之后两个任务停止参数共享,分为两个全连接分支第一个分支输出偏航角,第二个分支采用Sigmoid激活层输出一个概率分布作为碰撞概率推断。
使用模型输出作为无人机飞行控制的指令,更具体地,使用碰撞概率pt控制无人机的飞行速度vk,让碰撞概率与速度近似反比,采用低通过滤的方式计算出连续光滑的速度值vk
vk=(1-α)vk-1+α(1-pt)Vmax (1)
其中0≤α≤1。类似的,将推断的偏航角sk映射为无人机z轴的旋转角度θk,将sk从[-1,1]的范围转换到范围为
Figure GDA0003539339210000071
的偏航角度,并且对其进行低通滤波平滑处理:
Figure GDA0003539339210000072
在实际部署中,将α设为0.7并将β设为0.5,Vmax根据实际飞行环境进行调整。上述参数的选择根据经验,以牺牲一定可靠性作为代价提高无人机的平稳性。
步骤2.训练数据采集与模型训练
训练无人机自主导航任务的一个难点在于训练数据的收集,在现实环境中收集训练数据耗时并且缺乏安全性。因此采用微软基于虚幻引擎开发的高仿真器AirSim进行监督学习训练数据的收集与模型训练。为了从图像中学习偏航角度,在仿真其中操控无人机沿着当前路径飞行,AirSim在飞行过程中可以存储时间戳图片、IMU、GPS数据以及偏航角,只保留图像以及对应的偏航角作为数据与标签。为了学习图像的碰撞概率,需要给训练图像打上是否即将发生碰撞的标签。当图像非常靠近障碍物时,标注为1,当远离障碍物时标记为0。总共收集的数据集大小包含9000张图像,并且图像的规模平均分布在(32x32、112x112、224x224和320x320)大小中。由于含有空间域金字塔池化层的神经网络期望能够接收不同大小的输入,为了减少训练过程中切换大小所花费的开销,在一个大小的图像数据上训练完一个完整的轮次(epoch),然后切换到另一个大小(保留所有的权重)训练下一个完整的轮次,依次迭代。在实验中,发现这种多尺度训练的收敛速度与单尺度训练相似。
步骤3.如图3所示,强化学习
强化学习环境状态中采用一个神经元接受碰撞概率,一个神经元接收平均环境复杂度,另外一个一维卷积核接收动作集合向量,之后将结果聚合输入到隐藏层中,隐藏层包含128个神经元通过Softmax输出动作概率分布。Critic网络使用相同的神经网络结构,但是最后输出使用线性神经元,而不是激活函数。在训练过程中,采用衰减因子γ=0.99,意味着当前的动作会影响到之后100个状态,Actor和Critic网络的学习率分别为10-4和10-3,此外,在105次迭代中,熵因子β的衰减被控制为从1衰减到0.1。在整个训练过程中保持这些超参数不变。使用TensorFlow作为后端的Keras接口实现强化学习框架。
强化学习的训练过程在AirSim仿真环境中完成,无人机在飞行过程中观测5秒时间块的状态,并且根据策略网络执行动作然后从环境中获取奖励值更新网络参数。当仿真无人机碰到障碍物、超出路径一定范围或者到达路径中心时结束一个回合开始新的回合。
步骤4.如图5所示,物理无人机搭建与模型迁移
最后需要将模型进行迁移到物理环境中,先搭建无人机物理环境。物理无人机使用F450机架搭载Pixhawk飞控,飞控运行PX4固件保持无人机稳定飞行,机载计算机JetsonTX2通过USB连接飞控发出响应的指令。前置摄像头采用MyntEye深度摄像机,在运用的时候只是用其中左侧的摄像头进行当前环境图像的实时采集。电池采用5200-Mah容量的3s锂电池,电池不仅给无人机供电还通过UBEC电调给TX2计算设备供电。
软件框架采用ROS搭建,包含4个ROS节点进行协同工作:1)深度摄像头节点通过MyntEye API获取实时的视频帧进行发布;2)视觉导航节点接收来自深度摄像头节点进行卷积计算,推理出偏航角与碰撞概率;3)指令转化节点将视觉导航节点的控制信息转化为底层指令发送给无人机飞控,控制无人机飞行;4)动态配置节点获取当前的环境状态信息,执行卷积网络的配置动作,调整视频帧与对应输入大小配置。数据及指令通过Mavlink协议进行传输。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种基于深度强化学习的自主导航无人机功率优化方法,其特征在于,包括以下步骤:
S1.自主导航卷积神经网络的搭建与训练:将残差块与空间域金字塔池化层相结合,构建能够进行动态配置输入层大小的卷积神经网络;通过开源无人机仿真平台,采集用于训练自主导航任务的深度卷积模型的训练数据,并且使用采集到的训练数据对卷积神经网络进行有监督训练;基于卷积神经网络的自主导航模型从无人机的前置摄像头获取三通道图像输入,推断出当前无人机的偏航角与碰撞概率,以此控制无人机的方向与速度;偏航角与碰撞概率共享同一个卷积网络进行多任务学习;所述的卷积网络主体部分包含3个残差块,在残差块之后加入了空间域金字塔池化层对不同的输出大小进行池化操作,空间域金字塔池化层将不同的输入大小计算结果映射到固定大小的输出,并将输出结果输入到2个全连接层,并采用ReLU层进行非线性激活;在最后的ReLU激活层计算结束之后,两个任务停止共享参数并分为两个不同的全连接层分支,一个进行偏航角的预测,另一个进行碰撞概率推断;
S2.基于强化学习的动态配置模块搭建与训练:无人机使用步骤S1中预训练完成的卷积神经网络在仿真平台中与环境进行飞行,并且通过不断与环境进行交互,使无人机能够不断更新模型,学习到当前所处的环境状态特征;利用强化学习模型的推断结果对卷积模型进行动态配置;
S3.将仿真环境训练的模型迁移到现实环境:搭建装载计算设备的物理无人机,在现实环境中采集少量数据对导航模型进行微调,将仿真环境中训练的模型部署到物理环境中。
2.根据权利要求1所述的基于深度强化学习的自主导航无人机功率优化方法,其特征在于,使用均方误差MSE和二元交叉熵BCE分别训练偏航角和碰撞概率的推断,采用动态权重的方式对模型进行训练,二元交叉熵所对应的权重系数具体表示为公式(1),其中均方差的权重系数恒为1;
Figure FDA0003539339200000011
式中,epoch为训练轮次;epoch0为轮次常量。
3.根据权利要求2所述的基于深度强化学习的自主导航无人机功率优化方法,其特征在于,所述的步骤S1中,通过在开源的AirSim仿真环境中操控无人机沿着不同路径进行飞行,采集训练数据捕捉路径和障碍物的线性特征;每一次飞行都会存储前置摄像头的带有时间戳的帧和对应的偏航角度;并且对数据集进行标注,远离障碍物的帧标记为0,帧碰撞标记为1,从而学习碰撞概率的推断。
4.根据权利要求1所述的基于深度强化学习的自主导航无人机功率优化方法,其特征在于,所述的步骤S2中,强化学习采用Actor-Critic算法进行训练,无人机飞行经过一个时间块t之后,观测状态
Figure FDA0003539339200000021
其中xt是平均碰撞概率,ot是环境复杂度观测值,
Figure FDA0003539339200000022
是前三次动作的集合向量;接收到状态st之后,强化学习模型训练好的策略计算出动作at代表卷积神经网络输入层的大小,对应不同的环境感知力与计算功耗;通过索贝尔算子对图像进行卷积,计算每一个像素的空间域信息,并且对每个像素的空间域信息的值取平均得出该图像的复杂度值;策略输出是一个动作集合的概率分布π:π(st,at)→[0,1];π(st,at)表示在状态st下采取动作at的概率;使用神经网络来表示策略,并且神经网络的参数为θ,此时基于神经网络的策略表示为πθ(st,at);每执行完一个动作之后会从环境中获取到一个奖励rt=-α|Ct-St|-βEt,其中Ct是时间块内的平均环境复杂度,St是图像大小对应无人机的功耗,Et是推断熵,表示的是卷积神经网络推断置信度。
5.根据权利要求4所述的基于深度强化学习的自主导航无人机功率优化方法,其特征在于,所述的步骤S2中,训练过程采用策略梯度算法更新策略网络的参数θ,使用
Figure FDA0003539339200000027
代表优势函数,它表示在状态s下执行动作a所能获取的奖励与平均奖励相比是否具有优势;策略参数θ所对应的累积折现奖励的梯度描述为:
Figure FDA0003539339200000023
在实际运用中,使用动作执行轨迹的采样,并利用经验计算的优势A(st,at)作为
Figure FDA0003539339200000024
的无偏估计,每次根据以下策略梯度更新策略网络的参数:
Figure FDA0003539339200000025
式中,α’为学习率,
Figure FDA0003539339200000026
表示策略更新参数的方向,更新的幅度取决于当前状态st下执行动作at所取得的优势函数大小。
6.根据权利要求5所述的基于深度强化学习的自主导航无人机功率优化方法,其特征在于,为了能够在一个给定的经验中计算优势A(st,at),需要对价值函数的一个估计
Figure FDA0003539339200000031
表示从状态s出发采用策略πθ所能获得的奖励累积,Critic网络用于学习价值函数的估计,使用标准时序差分法来训练批评策略参数:
Figure FDA0003539339200000032
式中,
Figure FDA0003539339200000033
是对价值函数
Figure FDA0003539339200000034
的估计值,由Critic网络输出,α′为学习率;γ为训练策略网络的衰减因子;对于动作的一次执行(st,at,rt,st+1),优势函数A(st,at)估计为
Figure FDA0003539339200000035
7.根据权利要求1至6任一项所述的基于深度强化学习的自主导航无人机功率优化方法,其特征在于,所述的步骤S3中,模型迁移到现实环境中使用F450无人机机架作为载体,将Pixhawk飞控连接到NvidiaJetson TX2嵌入式板载计算机中接受上层控制指令,前置摄像头使用MyntEye深度摄像头,并且通过USB向嵌入式板载计算机发送实时的图像数据作为卷积神经网络的输入。
8.根据权利要求7所述的基于深度强化学习的自主导航无人机功率优化方法,其特征在于,所述的步骤S3中,软件栈使用ROS架构实现,包含4个ROS节点进行协同工作:1)深度摄像头节点通过MyntEye API获取实时的视频帧进行发布;2)视觉导航节点接收来自深度摄像头节点进行卷积计算,推理出偏航角与碰撞概率;3)指令转化节点将视觉导航节点的控制信息转化为底层指令发送给无人机飞控,控制无人机飞行;4)动态配置节点获取当前的环境状态信息,执行卷积网络的配置动作,调整视频帧与对应输入大小配置。
CN202011487635.0A 2020-12-16 2020-12-16 基于深度强化学习的自主导航无人机功率优化方法 Active CN112711271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011487635.0A CN112711271B (zh) 2020-12-16 2020-12-16 基于深度强化学习的自主导航无人机功率优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011487635.0A CN112711271B (zh) 2020-12-16 2020-12-16 基于深度强化学习的自主导航无人机功率优化方法

Publications (2)

Publication Number Publication Date
CN112711271A CN112711271A (zh) 2021-04-27
CN112711271B true CN112711271B (zh) 2022-05-17

Family

ID=75543886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011487635.0A Active CN112711271B (zh) 2020-12-16 2020-12-16 基于深度强化学习的自主导航无人机功率优化方法

Country Status (1)

Country Link
CN (1) CN112711271B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255218B (zh) * 2021-05-27 2022-05-31 电子科技大学 无线自供电通信网络的无人机自主导航及资源调度方法
CN113392584B (zh) * 2021-06-08 2022-12-16 华南理工大学 基于深度强化学习和方向估计的视觉导航方法
CN113377131B (zh) * 2021-06-23 2022-06-03 东南大学 一种使用强化学习获得无人机收集数据轨迹的方法
CN114061589B (zh) * 2021-11-16 2023-05-26 中山大学 端边协同的多无人机自主导航方法
CN114859971A (zh) * 2022-05-07 2022-08-05 北京卓翼智能科技有限公司 用于风力涡轮机监测的智能无人机
CN116566200B (zh) * 2023-07-10 2023-09-22 南京信息工程大学 一种直流降压变换器控制方法、装置、系统及存储介质
CN117475358B (zh) * 2023-12-27 2024-04-23 广东南方电信规划咨询设计院有限公司 一种基于无人机视觉的碰撞预测方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878708B2 (en) * 2017-03-03 2020-12-29 Farrokh Mohamadi Drone terrain surveillance with camera and radar sensor fusion for collision avoidance
CN107563044B (zh) * 2017-08-29 2020-08-25 武汉科技大学 基于在线安全学习的四旋翼无人机路径跟踪控制方法
US11734545B2 (en) * 2017-11-14 2023-08-22 Google Llc Highly efficient convolutional neural networks
CN109870162B (zh) * 2019-04-04 2020-10-30 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN110147101B (zh) * 2019-05-13 2020-05-22 中山大学 一种基于深度强化学习的端到端分布式多机器人编队导航方法
CN110488861B (zh) * 2019-07-30 2020-08-28 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110673637B (zh) * 2019-10-08 2022-05-13 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN111275112A (zh) * 2020-01-20 2020-06-12 上海高仙自动化科技发展有限公司 机器人控制方法、机器人和可读存储介质
CN111460650B (zh) * 2020-03-31 2022-11-01 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
CN112068549B (zh) * 2020-08-07 2022-12-16 哈尔滨工业大学 一种基于深度强化学习的无人系统集群控制方法

Also Published As

Publication number Publication date
CN112711271A (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN112711271B (zh) 基于深度强化学习的自主导航无人机功率优化方法
CN109992000B (zh) 一种基于分层强化学习的多无人机路径协同规划方法及装置
Ruan et al. Mobile robot navigation based on deep reinforcement learning
CN112256056B (zh) 基于多智能体深度强化学习的无人机控制方法及系统
Amarjyoti Deep reinforcement learning for robotic manipulation-the state of the art
CN113495578B (zh) 一种基于数字孪生式训练的集群航迹规划强化学习方法
AlMahamid et al. Autonomous unmanned aerial vehicle navigation using reinforcement learning: A systematic review
US20170095923A1 (en) Apparatus and methods for online training of robots
US11561544B2 (en) Indoor monocular navigation method based on cross-sensor transfer learning and system thereof
Chaffre et al. Sim-to-real transfer with incremental environment complexity for reinforcement learning of depth-based robot navigation
He et al. Integrated moment-based LGMD and deep reinforcement learning for UAV obstacle avoidance
Xu et al. Monocular vision based autonomous landing of quadrotor through deep reinforcement learning
Anwar et al. NavREn-Rl: Learning to fly in real environment via end-to-end deep reinforcement learning using monocular images
Devo et al. Autonomous single-image drone exploration with deep reinforcement learning and mixed reality
Wang et al. A continuous actor-critic reinforcement learning approach to flocking with fixed-wing UAVs
Wang et al. Oracle-guided deep reinforcement learning for large-scale multi-UAVs flocking and navigation
Chen et al. Zero-shot reinforcement learning on graphs for autonomous exploration under uncertainty
Dat et al. Supporting impaired people with a following robotic assistant by means of end-to-end visual target navigation and reinforcement learning approaches
Pham et al. Deep learning for vision-based navigation in autonomous drone racing
Salvatore et al. A neuro-inspired approach to intelligent collision avoidance and navigation
Liu et al. A hierarchical reinforcement learning algorithm based on attention mechanism for uav autonomous navigation
Bi et al. Navigation by imitation in a pedestrian-rich environment
Badawy et al. New approach to enhancing the performance of cloud-based vision system of mobile robots
Boubin et al. Programming and deployment of autonomous swarms using multi-agent reinforcement learning
CN116339321A (zh) 一种基于5g通信的全局信息驱动的分布式多机器人强化学习编队合围方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant