CN114355980B - 基于深度强化学习的四旋翼无人机自主导航方法与系统 - Google Patents

基于深度强化学习的四旋翼无人机自主导航方法与系统 Download PDF

Info

Publication number
CN114355980B
CN114355980B CN202210011567.3A CN202210011567A CN114355980B CN 114355980 B CN114355980 B CN 114355980B CN 202210011567 A CN202210011567 A CN 202210011567A CN 114355980 B CN114355980 B CN 114355980B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
rotor unmanned
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210011567.3A
Other languages
English (en)
Other versions
CN114355980A (zh
Inventor
朱光耀
王成光
杨根科
褚健
王宏武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Original Assignee
Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University filed Critical Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Priority to CN202210011567.3A priority Critical patent/CN114355980B/zh
Publication of CN114355980A publication Critical patent/CN114355980A/zh
Application granted granted Critical
Publication of CN114355980B publication Critical patent/CN114355980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于深度强化学习的四旋翼无人机自主导航方法与系统,涉及四旋翼无人机和深度强化学习领域,方法包括以下步骤:步骤1、构建DDPG网络模型,并使用2D‑GA算法来训练DDPG网络模型;步骤2、获得四旋翼无人机的位姿并建立ESDF地图;步骤3、在ESDF地图上,用路径搜索算法得到离散路径点序列;步骤4、将位姿向量、ESDF地图矩阵、离散路径点向量并行输入特征提取网络,并将提取的若干特征拼接成一个组合特征输入到DDPG网络模型中,输出动作a;步骤5、控制模块将动作a转化成四旋翼无人机的四个电机的转速并执行;步骤6、在执行完动作a之后,根据奖励函数计算奖励r,判断是否到达目的地;如果没有到达目的地,则重复步骤2到步骤6。

Description

基于深度强化学习的四旋翼无人机自主导航方法与系统
技术领域
本发明涉及四旋翼无人机和深度强化学习领域,尤其涉及一种基于深度强化学习的四旋翼无人机自主导航方法与系统。
背景技术
近年来,随着传感器设备和MEMS(Micro Electro Mechanical System,微机电系统)芯片的发展,四旋翼无人机已广泛应用于航拍、搜索和救援等领域。为了能够在未知杂乱的环境中完成任务,无人机的自主导航能力至关重要。
无人机自主导航系统主要由状态估计、环境感知、运动规划、动态控制这几个模块组成。状态估计和环境感知统称为SLAM(Simultaneous Localization And Mapping,同步定位与建图)系统,即利用无人机搭载的视觉传感器或者激光雷达实现自身的定位和对地图的构建。运动规划模块则根据SLAM模块得到的无人机位姿和地图信息,规划出一条可执行的轨迹,发送给底层的控制模块。控制模块通常是由飞控设备完成,实现无人机对期望轨迹的精准追踪。随着科学技术的发展,状态估计、环境感知、动态控制都具有了很高的可靠性、适用性和鲁棒性,所以运动规划模块能否输出一条光滑、安全并且动力学可行的轨迹,对于无人机的自主导航至关重要。
传统的运动规划方法主要由前端的路径搜索和后端的轨迹优化两部分组成。前端使用A*、RRT(Rapidly-Exploring Random Tree,快速扩展随机树)等路径搜索算法在低维的状态空间内得到一个离散的初始解,然后后端在连续空间内对前端的低维近似解进行优化,得到一个可供控制器执行的高质量解。上述方法主要适用于环境已知并且是静态的情况,当环境未知并且存在动态变化时,无人机需要具备在线实时局部重规划能力,即根据传感器得到的信息更新地图,并临时重新规划局部轨迹以避免碰撞。传统方法通常采用非线性优化来进行局部重规划,也就是设计一个目标函数对无人机轨迹的安全性、光滑性和动力学可行性进行约束,但该非线性优化通常是一个非凸问题,求解过程中容易陷入局部极值,并且求解优化问题的速度很难满足无人机在未知环境中高机动性飞行的要求。
强化学习是机器学习的一个分支,通过智能体与环境进行交互来学习策略以最大化期望累积回报。传统的强化学习方法,比如Q-learning(Q值学习),只能处理有限维度的状态和动作空间,极大地限制了强化学习在实际中的应用。而随着近年来深度学习的发展,与之相结合产生的深度强化学习很好地解决了维度爆炸的问题,并将离散的状态和动作空间扩展到了连续空间,从而在机器人控制领域也有了广泛的应用。使用深度强化学习进行无人机自主导航,计算处理速度快,不容易陷入局部最优,适合在未知环境中实时处理。
目前已有很多将深度强化学习应用于无人机导航的发明。于滨等人在中国发明专利申请“一种基于深度强化学习的两阶段无人机物流路径规划方法”(申请号为CN202110413367.6)中提出了一个同时考虑物流和飞行的两阶段无人机路径规划方法,并基于深度强化学习在飞行过程中进行动作的实时选择,保证了无人机物流飞行路径的安全性和高效性。但是该专利申请将动作空间设计为具体的七种动作,规划出的轨迹由若干个离散的飞行动作组成,无人机很难进行连续飞行,限制了无人机的机动性,同时,奖励函数设计中可能存在无人机不断重复“远离-靠近”以获得更多累积回报的问题。顾晶晶等人在中国发明专利申请“基于强化学习的未知环境自主导航系统及方法”(申请号为CN201911313540.4)中提出了一种基于强化学习的未知环境自主导航系统及方法,设计的奖励函数综合考虑了移动方向和障碍感知,实现了无人机在无先验知识的前提下在未知环境中自主导航,但该奖励函数时刻引导无人机朝着目标前进,存在陷入死胡同的风险,使得整体轨迹陷入局部最优,同时强化学习模型输出的仍是离散动作,不适合实际场景中无人机的连续机动飞行。
现有技术只是简单地将动作空间离散化,同时奖励函数的设计存在算法无法收敛或者陷入局部最优的问题,导致很难在实际中得到应用。因此,本领域的技术人员致力于开发一种基于深度强化学习的四旋翼无人机自主导航方法与系统,克服现有技术中存在的上述问题。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何设计状态空间、动作空间和奖励函数来实现基于深度强化学习的四旋翼无人机自主导航,以及如何克服深度强化学习在无人机导航中存在的对环境探索不充分、训练收敛慢或者无法收敛的问题。
为实现上述目的,本发明提出了一种基于深度强化学习算法的四旋翼无人机在未知环境中的自主导航方法与系统,对状态空间、动作空间和奖励函数进行设计,同时改进了原深度强化学习算法中的探索策略以及提出了一种2D-GA(Genetic Algorithm,遗传算法)来提高训练收敛速度。其中,深度强化学习算法也指DDPG算法,即Deep DeterministicPolicy Gradient,深度确定性策略梯度算法。
本发明提出的一种基于深度强化学习的四旋翼无人机自主导航方法包括以下步骤:
步骤1、构建适用于四旋翼无人机自主导航的DDPG网络模型,并使用2D-GA算法来训练所述DDPG网络模型;
步骤2、获得所述四旋翼无人机的位姿并建立ESDF地图;
步骤3、在所述ESDF地图上,先用路径搜索算法得到离散路径点序列;
步骤4、将由所述位姿组成的位姿向量、所述ESDF地图组成的ESDF地图矩阵、所述离散路径点序列组成的离散路径点向量并行输入特征提取网络,并将所述特征提取网络提取的若干特征拼接成一个组合特征输入到所述DDPG网络模型中,输出动作a给控制模块;
步骤5、所述控制模块将所述动作a转化成所述四旋翼无人机的四个电机的转速并执行;
步骤6、在所述四旋翼无人机执行完所述动作a之后,根据奖励函数计算奖励r,并判断是否到达目的地;如果没有到达所述目的地,则重复所述步骤2到所述步骤6,直到到达所述目的地。
进一步地,所述步骤1包括以下步骤:
步骤1.1、随机初始化所述DDPG网络模型的Actor网络π和Critic网络Q,同时,初始化Actor目标网络π′和Critic目标网络Q′,权重分别与所述Actor网络π和所述Critic网络Q相同,并初始化经验回放池;
步骤1.2、初始化所述四旋翼无人机的状态s,所述状态s包括初始位姿向量、初始ESDF地图矩阵、初始离散路径点向量,并使用随机策略输出所述动作a;在所述四旋翼无人机执行完所述动作a之后,使用所述奖励函数得到执行完所述动作a的所述奖励r以及下一时刻所述四旋翼无人机的状态s′,其中,所述初始ESDF地图矩阵会随着所述四旋翼无人机的飞行不断更新;将序列(s,a,r,s′)存入所述经验回放池中;重复直到所述经验回放池中达到预定数量的所述(s,a,r,s′)序列;
步骤1.3、从所述经验回放池中取出m个所述(s,a,r,s′)序列作为同一批进行训练,使用梯度下降法更新所述Actor网络π和所述Critic网络Q的权重;
步骤1.4、在一批训练结束后,使用所述2D-GA算法对多线程并行执行的所述Actor网络π和所述Critic网络Q的权重进行保留和剔除,加快训练速度;
步骤1.5、对所述Actor目标网络π′和所述Critic目标网络Q′的权重进行软更新:
θμ′=τθμ+(1-τ)θμ′
θω′=τθω+(1-τ)θω′
重复所述步骤1.3到1.5,直到训练结果达到预期要求;
其中,τ表示用来控制权重软更新速度的参数,θμ表示所述Actor网络π的网络权重,θμ′表示所述Actor目标网络π′的网络权重;θω表示所述Critic网络Q的网络权重,θω′表示所述Critic目标网络Q′的网络权重。
进一步地,在开始所述步骤1之前将预先设计状态空间、动作空间和所述奖励函数;所述状态空间包括无人机自身状态、环境信息以及前端路径搜索得到的离散路径点,将所述无人机自身状态、所述环境信息和所述前端路径搜索得到的离散路径点并行输入各自的特征网络进行处理,并拼接成一个组合特征输入到所述DDPG网络模型。
进一步地,所述动作空间为四个连续变量:四旋翼提供的总升力F、三个姿态角的角加速度ωx、wy、ωz;根据所述姿态的所述角加速度和欧拉方程可以求出所述四旋翼无人机三个轴的转矩M1、M2、M3,再加上所述总升力F计算出所述四旋翼无人机四个电机的转速f1、f2、f3、f4
进一步地,所述奖励函数的表达式为:
R=rs+rc+rd+rt+rf+rg (1)
其中,rs是光滑性奖励,通过最小化轨迹的jerk来实现;jerk是加速度的导数,是所述四旋翼无人机的角速度,rs的表达式为:其中,at表示所述四旋翼无人机在t时刻的加速度;rc是碰撞惩罚,通过所述ESDF地图来构建:/>d是从所述ESDF地图中得到的所述四旋翼无人机在当前位置与最近障碍物的距离,d0是安全距离阈值;rd是动力学可行性奖励,对所述四旋翼无人机而言,动力学可行是要满足最大速度和加速度约束;rt是鼓励所述四旋翼无人机尽快到达目标的奖励,形式为:rt=-λt·(dt-dt-1),其中,dt是t时刻所述四旋翼无人机离目标点的距离;当所述四旋翼无人机接近目标点时会得到一个正的奖励,有效缓解奖励稀疏的问题;由于前端的所述路径搜索算法得到一个离散路径点序列,即参考路径P,引入偏离参考路径惩罚rf来引导所述四旋翼无人机沿着所述参考路径前进,表达式为:rf=-λf·minp∈P||pt-p||2,其中,pt是所述四旋翼无人机在t时刻的位置;当所述四旋翼无人机到达目标点时,给与一个完成目标奖励rg
其中,λs、λc、λt和λf是对应于各自奖励函数分量的权重系数,λs是对应于光滑性奖励rs的权重系数,λc是对应于碰撞惩罚rc的权重系数,λt是对应于鼓励所述四旋翼无人机尽快到达目标的奖励rt的权重系数,λf是对应于偏离参考路径惩罚rf的权重系数。
进一步地,通过在所述DDPG网络模型靠近输出的若干层网络参数上叠加噪声,同时根据训练情况自适应调节探索力度,即在所述DDPG网络模型上提供一种自适应网络参数噪声法;
对于一个线性层y=ωx+b,将权重ω和偏差b改写为:
ω=μωω·εω (2)
b=μbb·εb (3)
其中,μ和σ是需要学习的参数,ε是零均值高斯噪声,方差σ随着训练过程不断衰减;设σ的最大值和最小值分别为σmax、σmin,一共训练N步,当前训练步为n,则取也就是训练初期噪声方差较大,探索能力较强,而随着训练过程策略逐渐接近最优,较大的噪声会影响策略的收敛,所以逐渐降低噪声以减小探索力度。
进一步地,所述2D-GA算法的内容如下:初始化N个2D基因序列,第一维和第二维分别代表所述DDPG网络模型中的所述Actor网络π和所述Critic网络Q的权重;
所述Actor网络π的适应度函数为一批训练完的累积奖励值Rt,所述Critic网络Q的适应度函数为Q函数的均方误差:
其中,yi=ri+γQ′(si+1,π′(si+1μ′)|θω′),ω、μ、ω′和μ′是对应的网络权重参数;变异过程是使用所述DDPG网络模型训练N个模型,借用A3C算法的思想,采用多线程并行训练的方法,所述N个模型共用一个所述经验回放池;训练完一批后,记录下每个模型的累积奖励和平均均方误差/>并分别记录下其中的最大值和最小值/>然后进行标准化处理:
假设2D基因序列j有最大的2D基因序列k有最小的/>训练的目的是最大化累积奖励R和最小化均方误差L,进行选择和交叉过程:
每个基因序列i分别有和/>的概率保留自己的Actor网络权重和Critic网络权重,有/>和/>的概率使用基因序列j的Actor权重、基因序列k的Critic权重来替代自己对应的权重,其中:
本发明还提供一种基于深度强化学习的四旋翼无人机自主导航系统,所述系统包括:
传感器模块,所述传感器模块包括相机模块和IMU模块,获取IMU数据和点云数据;
SLAM模块,所述SLAM模块包括环境建图模块和状态估计模块,与所述传感器模块连接,接收所述IMU数据和所述点云数据,并计算出所述四旋翼无人机的位姿与生成ESDF地图;
路径规划模块,所述路径规划模块包括路径搜索模块和DDPG网络模型,与所述SLAM模块连接,接收所述四旋翼无人机的所述位姿和所述ESDF地图;所述路径搜索模块在所述ESDF地图上采用路径搜索算法得到一条离散路径点序列,再将所述四旋翼无人机的所述位姿、所述ESDF地图、所述离散路径点序列发送给所述DDPG网络模型,并输出动作指令;
控制模块,所述控制模块包括控制器模块和执行器模块,与所述路径规划模块连接,接收所述动作指令并执行。
进一步地,通过在所述DDPG网络模型靠近输出的若干层网络参数上叠加噪声,同时根据训练情况自适应调节探索力度,即在所述DDPG网络模型上提供一种自适应网络参数噪声法。
进一步地,使用2D-GA算法来训练所述DDPG网络模型。
本发明提出的一种基于深度强化学习的四旋翼无人机自主导航方法与系统至少具有以下技术效果:
1、相比现有技术中的很多方法是将动作空间离散化,本发明实施例中设计的动作空间由连续变量组成,而且可以直接转化成可供飞控执行的四个电机的转速,有利于四旋翼无人机的连续机动飞行;
2、本发明实施例设计的状态空间结合了无人机当前位姿以及环境信息,并将前端使用路径搜索算法得到的离散路径点序列也作为状态输入,可以有效地缓解传统基于强化学习的无人机导航方法的奖励稀疏问题,并引导无人机沿着路径点前进,提高训练速度和轨迹质量;
3、本发明实施例根据状态空间,奖励函数综合考虑了轨迹的光滑性、安全性、动力学可行性以及时间最优性,而且与状态空间的变量直接相关,有利于强化学习算法的收敛;
4、本发明实施例改进了DDPG原算法中的探索策略,并提出2D-GA算法,显著提高了模型的训练速度。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的无人机自主导航系统结构示意图;
图2是本发明的一个较佳实施例的基于提出的2D-GA算法改进的DDPG算法模型训练流程图;
图3是本发明的一个较佳实施例的包括特征提取网络在内的改进的DDPG算法网络结构示意图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
四旋翼无人机已广泛应用于航拍、搜索和救援等领域。为了能够在未知杂乱的环境中完成任务,无人机的自主导航能力至关重要。在现有技术中,只是简单地将四旋翼无人机的动作空间离散化,同时奖励函数的设计存在算法无法收敛或者陷入局部最优的问题,导致很难在实际中得到应用。因此,本领域的技术人员为解决上述问题,本发明提出了一种基于深度强化学习DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度)算法的四旋翼无人机在未知环境中自主导航的方法,对状态空间、动作空间和奖励函数进行设计,同时针对DDPG算法在训练过程中存在的对环境探索不充分、训练收敛慢的问题,改进了原算法中的探索策略以及提出了一种2D-GA(Genetic Algorithm,遗传算法)来提高训练收敛速度。
本发明提出的一种基于深度强化学习的四旋翼无人机自主导航方法包括以下步骤:
步骤1、构建适用于四旋翼无人机自主导航的DDPG网络模型,并使用2D-GA算法来训练DDPG网络模型;
步骤2、获得四旋翼无人机的位姿并建立ESDF(Euclidean Signed DistanceField,欧式有向距离场)地图;
步骤3、在ESDF地图上,先用路径搜索算法得到离散路径点序列;
步骤4、将由位姿组成的位姿向量、ESDF地图组成的ESDF地图矩阵、离散路径点序列组成的离散路径点向量并行输入特征提取网络,并将特征提取网络提取的若干特征拼接成一个组合特征输入到DDPG网络模型中,输出动作a给控制模块(如图3所示);
步骤5、控制模块将动作a转化成四旋翼无人机的四个电机的转速并执行;
步骤6、在四旋翼无人机执行完动作a之后,根据奖励函数计算奖励r,并判断是否到达目的地;如果没有到达目的地,则重复步骤2到步骤6,直到到达目的地。
其中,步骤1是根据本发明实施例中提出的状态空间、动作空间和奖励函数的设计方法来对使用深度强化学习算法DDPG进行无人机自主导航这一问题进行建模,构建改进探索策略后的DDPG网络模型,并用本发明提出的2D-GA算法来训练模型。
步骤1具体包括以下步骤(如图2所示):
步骤1.1、随机初始化DDPG网络模型的Actor网络π和Critic网络Q,同时,初始化Actor目标网络π′和Critic目标网络Q′,权重分别与Actor网络π和Critic网络Q相同,并初始化经验回放池;
步骤1.2、初始化四旋翼无人机的状态s,状态s包括初始位姿向量、初始ESDF地图矩阵、初始离散路径点向量,并使用随机策略输出动作a;在四旋翼无人机执行完动作a之后,使用奖励函数得到执行完动作a的奖励r以及下一时刻四旋翼无人机的状态s′,其中,初始ESDF地图矩阵会随着四旋翼无人机的飞行不断更新;将序列(s,a,r,s′)存入经验回放池中;重复直到经验回放池中达到预定数量的(s,a,r,s′)序列;
步骤1.3、从经验回放池中取出m个(s,a,r,s′)序列作为同一批进行训练,即作为一个batch进行训练,使用梯度下降法更新Actor网络π和Critic网络Q的权重;
步骤1.4、在一批训练结束后,即在每一个episode结束后,使用2D-GA算法对多线程并行执行的Actor网络π和Critic网络Q的权重进行保留和剔除,加快训练速度;
步骤1.5、对Actor目标网络π′和Critic目标网络Q′的权重进行软更新:
θμ′=τθμ+(1-τ)θμ′
θω′=τθω+(1-τ)θω′
重复步骤1.3到1.5,直到训练结果达到预期要求。
其中,在开始步骤1之前将预先设计状态空间、动作空间和奖励函数。
其中,状态空间主要由三部分组成:无人机自身状态、环境信息以及前端路径搜索得到的离散路径点。SLAM模块通过传感器获得的IMU(Inertial Measurement Unit,惯性测量单元)数据和点云数据,计算出无人机当前的位姿并生成ESDF地图,在该地图上采用路径搜索算法得到一条离散的参考路径点。将位姿向量、ESDF地图矩阵、离散路径点向量并行输入各自的特征网络进行处理,然后拼接成一个组合特征输入DDPG网络模型。
其中,动作空间的设计需要使得DDPG策略网络的输出能够被控制器很好地执行,以满足无人机连续平稳飞行的需要。在本发明实施例中,动作空间为四个连续变量:四旋翼提供的总升力F、三个姿态角的角加速度ωx、ωy、ωz;根据姿态的角加速度和欧拉方程可以求出四旋翼无人机三个轴的转矩M1、M2、M3,再加上总升力F计算出四旋翼无人机四个电机的转速f1、f2、f3、f4
其中,奖励函数的设计需要遵循的原则是:无人机飞行轨迹光滑、避免与障碍物碰撞、满足动力学可行性、尽可能快地到达目标。
最终,奖励函数的表达式为:
R=rs+rc+rd+rt+rf+rg (1)
其中,rs是光滑性奖励,通过最小化轨迹的jerk来实现;jerk是加速度的导数,对四旋翼无人机而言对应的是四旋翼无人机的角速度,而较小的角速度有利于视觉追踪和SLAM过程,rs的表达式为:其中,at表示四旋翼无人机在t时刻的加速度;rc是碰撞惩罚,主要通过SLAM模块得到的ESDF地图来构建:/>d是从ESDF地图中得到的四旋翼无人机在当前位置与最近障碍物的距离,d0是安全距离阈值;rd是动力学可行性奖励,对四旋翼无人机而言,动力学可行是要满足最大速度和加速度约束,rd的形式与rc类似;rt是鼓励四旋翼无人机尽快到达目标的奖励,形式为:rt=-λt·(dt-dt-1),其中,dt是t时刻四旋翼无人机离目标点的距离;当四旋翼无人机接近目标点时会得到一个正的奖励,有效缓解奖励稀疏的问题;由于前端的路径搜索算法得到一个离散路径点序列,即参考路径P,引入偏离参考路径惩罚rf来引导四旋翼无人机沿着参考路径前进,表达式为:rf=-λf·minp∈P||pt-p||2,其中,pt是四旋翼无人机在t时刻的位置,p是离散路径点;当四旋翼无人机到达目标点时,给与一个完成目标奖励rg
其中,通过在DDPG网络模型靠近输出的若干层网络参数上叠加噪声,同时根据训练情况自适应调节探索力度,即在DDPG网络模型上提供一种自适应网络参数噪声法。DDPG算法,或者DDPG网络模型的策略网络输出确定性动作,它的探索依靠在输出的动作空间叠加高斯噪声来实现,噪声的主要参数是方差,方差越大探索能力越强。但仅在最后输出的动作空间上添加固定方差的噪声存在两个问题:探索不充分以及没有平衡好探索和利用的关系。本发明实施例提出一种自适应网络参数噪声法,通过在策略网络靠近输出的若干层网络参数上叠加噪声,优点是参数噪声的影响范围更大,探索更充分,同时根据训练情况自适应调节探索力度,也就是噪声的方差大小。
具体来说,对于一个线性层y=ωx+b,将权重ω和偏差b改写为:
ω=μωω·εω (2)
b=μbb·εb (3)
其中,μ和σ是需要学习的参数,ε是零均值高斯噪声,方差σ随着训练过程不断衰减;设σ的最大值和最小值分别为σmax、σmin,一共训练N步,当前训练步为n,则取也就是训练初期噪声方差较大,探索能力较强,而随着训练过程策略逐渐接近最优,较大的噪声会影响策略的收敛,所以逐渐降低噪声以减小探索力度;
其中,为了提高DDPG算法模型的训练速度,本发明实施例中提出一种2D-GA算法,具体内容如下:初始化N个2D基因序列,第一维和第二维分别代表DDPG网络模型中的Actor网络π和Critic网络Q的权重;
Actor网络π的适应度函数为一批训练完的累积奖励值Rt,Critic网络Q的适应度函数为Q函数的均方误差:
其中,yi=ri+γQ′(si+1,π′(si+1μ′)|θω′),ω、μ、ω′和μ′是对应的网络权重参数;变异过程是使用DDPG网络模型训练N个模型,借用A3C(Asynchronous Advantage ActorCritic,异步优势演员评论家)算法的思想,采用多线程并行训练的方法,N个模型共用一个经验回放池(experience replay buffer);训练完一批后,记录下每个模型的累积奖励和平均均方误差/>并分别记录下其中的最大值和最小值/>然后进行标准化处理:
假设2D基因序列j有最大的2D基因序列k有最小的/>训练的目的是最大化累积奖励R和最小化均方误差L,进行选择和交叉过程:
每个基因序列i分别有和/>的概率保留自己的Actor网络权重和Critic网络权重,有/>和/>的概率使用基因序列j的Actor权重、基因序列k的Critic权重来替代自己对应的权重,其中:
2D-GA算法的思想就是在维持好的策略和Q函数的同时,逐步消除坏的策略和Q函数。
如图1所示,本发明还提供一种基于深度强化学习的四旋翼无人机自主导航系统,包括:
传感器模块,传感器模块包括相机模块和IMU模块,获取IMU数据和点云数据;
SLAM模块,SLAM模块包括环境建图模块和状态估计模块,与传感器模块连接,接收IMU数据和点云数据,并计算出四旋翼无人机的位姿与生成ESDF地图;
路径规划模块,路径规划模块包括路径搜索模块和DDPG网络模型,与SLAM模块连接,接收四旋翼无人机的位姿和ESDF地图;路径搜索模块在ESDF地图上采用路径搜索算法得到一条离散路径点序列,再将四旋翼无人机的位姿、ESDF地图、离散路径点序列发送给DDPG网络模型,并输出动作指令;
控制模块,控制模块包括控制器模块和执行器模块,与路径规划模块连接,接收动作指令并执行。
其中,通过在DDPG网络模型靠近输出的若干层网络参数上叠加噪声,同时根据训练情况自适应调节探索力度,即在DDPG网络模型上提供一种自适应网络参数噪声法。
其中,使用2D-GA算法来训练DDPG网络模型。
在本发明实施例中,对深度强化学习模型,即DDPG网络模型中的状态空间、动作空间和奖励函数进行设计,综合考虑了无人机导航轨迹的光滑性、安全性、动力学可行性和时间最优性,并改进了DDPG算法的探索策略,提出一种2D-GA算法来提高训练速度。本发明实施例所提供的技术方案突出解决了基于深度强化学习的四旋翼无人机自主导航问题,满足了四旋翼无人机在未知环境下高机动飞行的要求。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种基于深度强化学习的四旋翼无人机自主导航方法,其特征在于,所述方法包括以下步骤:
步骤1、构建适用于四旋翼无人机自主导航的DDPG网络模型,并使用2D-GA算法来训练所述DDPG网络模型;
步骤2、获得所述四旋翼无人机的位姿并建立ESDF地图;
步骤3、在所述ESDF地图上,先用路径搜索算法得到离散路径点序列;
步骤4、将由所述位姿组成的位姿向量、所述ESDF地图组成的ESDF地图矩阵、所述离散路径点序列组成的离散路径点向量并行输入特征提取网络,并将所述特征提取网络提取的若干特征拼接成一个组合特征输入到所述DDPG网络模型中,输出动作a给控制模块;
步骤5、所述控制模块将所述动作a转化成所述四旋翼无人机的四个电机的转速并执行;
步骤6、在所述四旋翼无人机执行完所述动作a之后,根据奖励函数计算奖励r,并判断是否到达目的地;如果没有到达所述目的地,则重复所述步骤2到所述步骤6,直到到达所述目的地;
所述2D-GA算法的内容如下:初始化N个2D基因序列,第一维和第二维分别代表所述DDPG网络模型中的Actor网络π和Critic网络Q的权重;
Actor网络π的适应度函数为一批训练完的累积奖励值Rt,Critic网络Q的适应度函数为Q函数的均方误差:
其中,yi=ri+γQ′(si+1,π′(si+1μ′)|θω′),ω、μ、ω′和μ′是对应的网络权重参数;m为从经验回放池中取出、进行训练的序列数,序列为(s,a,r,s′),其中,初始化所述四旋翼无人机的状态s,r为奖励,s′为更新后四旋翼无人机的状态;变异过程是使用所述DDPG网络模型训练N个模型,借用A3C算法的思想,采用多线程并行训练的方法,N个模型共用一个经验回放池;训练完一批后,记录下每个模型的累积奖励和平均均方误差/>并分别记录下其中的最大值和最小值/>然后进行标准化处理:
假设2D基因序列j有最大的2D基因序列k有最小的/>训练的目的是最大化累积奖励R和最小化均方误差L,进行选择和交叉过程:
每个基因序列i分别有和/>的概率保留自己的Actor网络权重和Critic网络权重,有/>和/>的概率使用基因序列j的Actor权重、基因序列k的Critic权重来替代自己对应的权重,其中:
2.如权利要求1所述的基于深度强化学习的四旋翼无人机自主导航方法,其特征在于,所述步骤1包括以下步骤:
步骤1.1、随机初始化所述DDPG网络模型的Actor网络π和Critic网络Q,同时,初始化Actor目标网络π′和Critic目标网络Q′,权重分别与Actor网络π和Critic网络Q相同,并初始化经验回放池;
步骤1.2、初始化所述四旋翼无人机的状态s,所述状态s包括初始位姿向量、初始ESDF地图矩阵、初始离散路径点向量,并使用随机策略输出所述动作a;在所述四旋翼无人机执行完所述动作a之后,使用所述奖励函数得到执行完所述动作a的所述奖励r以及下一时刻所述四旋翼无人机的状态s′,其中,所述初始ESDF地图矩阵会随着所述四旋翼无人机的飞行不断更新;将序列(s,a,r,s′)存入所述经验回放池中;重复直到所述经验回放池中达到预定数量的所述(s,a,r,s′)序列;
步骤1.3、从所述经验回放池中取出m个所述(s,a,r,s′)序列作为同一批进行训练,使用梯度下降法更新Actor网络π和Critic网络Q的权重;
步骤1.4、在一批训练结束后,使用所述2D-GA算法对多线程并行执行的Actor网络π和Critic网络Q的权重进行保留和剔除,加快训练速度;
步骤1.5、对Actor目标网络π′和Critic目标网络Q′的权重进行软更新:
θμ′=τθμ+(1-τ)θμ′
θω′=τθω+(1-τ)θω′
重复所述步骤1.3到1.5,直到训练结果达到预期要求;
其中,τ表示用来控制权重软更新速度的参数,θμ表示Actor网络π的网络权重,θμ′表示Actor目标网络π′的网络权重;θω表示Critic网络Q的网络权重,θω′表示Critic目标网络Q′的网络权重。
3.如权利要求2所述的基于深度强化学习的四旋翼无人机自主导航方法,其特征在于,在开始所述步骤1之前将预先设计状态空间、动作空间和所述奖励函数;
所述状态空间包括无人机自身状态、环境信息以及前端路径搜索得到的离散路径点,将所述无人机自身状态、所述环境信息和所述前端路径搜索得到的离散路径点并行输入各自的特征网络进行处理,并拼接成一个组合特征输入到所述DDPG网络模型。
4.如权利要求3所述的基于深度强化学习的四旋翼无人机自主导航方法,其特征在于,所述动作空间为四个连续变量:四旋翼提供的总升力F、三个姿态角的角加速度ωx、ωy、ωz;根据姿态的所述角加速度和欧拉方程可以求出所述四旋翼无人机三个轴的转矩M1、M2、M3,再加上所述总升力F计算出所述四旋翼无人机四个电机的转速f1、f2、f3、f4
5.如权利要求3所述的基于深度强化学习的四旋翼无人机自主导航方法,其特征在于,所述奖励函数的表达式为:
R=rs+rc+rd+rt+rf+rg (1)
其中,rs是光滑性奖励,通过最小化轨迹的jerk来实现;jerk是加速度的导数,是所述四旋翼无人机的角速度,rs的表达式为:其中,at表示所述四旋翼无人机在t时刻的加速度;rc是碰撞惩罚,通过所述ESDF地图来构建:/>d是从所述ESDF地图中得到的所述四旋翼无人机在当前位置与最近障碍物的距离,d0是安全距离阈值;rd是动力学可行性奖励,对所述四旋翼无人机而言,动力学可行是要满足最大速度和加速度约束;rt是鼓励所述四旋翼无人机尽快到达目标的奖励,形式为:rt=-λt·(dt-dt-1),其中,dt是t时刻所述四旋翼无人机离目标点的距离;当所述四旋翼无人机接近目标点时会得到一个正的奖励,有效缓解奖励稀疏的问题;由于前端的所述路径搜索算法得到一个离散路径点序列,记为参考路径P,引入偏离参考路径惩罚rf来引导所述四旋翼无人机沿着所述参考路径前进,表达式为:rf=-λf·minp∈P||pt-p||2,其中,pt是所述四旋翼无人机在t时刻的位置;当所述四旋翼无人机到达目标点时,给与一个完成目标奖励rg
其中,λs、λc、λt和λf是对应于各自奖励函数分量的权重系数,λs是对应于光滑性奖励rs的权重系数,λc是对应于碰撞惩罚rc的权重系数,λt是对应于鼓励所述四旋翼无人机尽快到达目标的奖励rt的权重系数,λf是对应于偏离参考路径惩罚rf的权重系数。
6.如权利要求1所述的基于深度强化学习的四旋翼无人机自主导航方法,其特征在于,通过在所述DDPG网络模型靠近输出的若干层网络参数上叠加噪声,同时根据训练情况自适应调节探索力度,在所述DDPG网络模型上提供一种自适应网络参数噪声法;
对于一个线性层y=ωx+b,将权重ω和偏差b改写为:
ω=μωω·εω (2)
b=μbb·εb (3)
其中,μ和σ是需要学习的参数,ε是零均值高斯噪声,方差σ随着训练过程不断衰减;设σ的最大值和最小值分别为σmax、σmin,一共训练N步,当前训练步为n,则取也就是训练初期噪声方差较大,探索能力较强,而随着训练过程策略逐渐接近最优,较大的噪声会影响策略的收敛,所以逐渐降低噪声以减小探索力度。
7.一种基于深度强化学习的四旋翼无人机自主导航系统,其特征在于,所述系统包括:
传感器模块,所述传感器模块包括相机模块和IMU模块,获取IMU数据和点云数据;
SLAM模块,所述SLAM模块包括环境建图模块和状态估计模块,与所述传感器模块连接,接收所述IMU数据和所述点云数据,并计算出所述四旋翼无人机的位姿与生成ESDF地图;
路径规划模块,所述路径规划模块包括路径搜索模块和DDPG网络模型,与所述SLAM模块连接,接收所述四旋翼无人机的所述位姿和所述ESDF地图;所述路径搜索模块在所述ESDF地图上采用路径搜索算法得到一条离散路径点序列,再将所述四旋翼无人机的所述位姿、所述ESDF地图、所述离散路径点序列发送给所述DDPG网络模型,并输出动作指令;
控制模块,所述控制模块包括控制器模块和执行器模块,与所述路径规划模块连接,接收所述动作指令并执行;
使用2D-GA算法来训练所述DDPG网络模型;
所述2D-GA算法的内容如下:初始化N个2D基因序列,第一维和第二维分别代表所述DDPG网络模型中的Actor网络π和Critic网络Q的权重;
Actor网络π的适应度函数为一批训练完的累积奖励值Rt,Critic网络Q的适应度函数为Q函数的均方误差:
其中,yi=ri+γQ′(si+1,π′(si+1μ′)|θω′),ω、μ、ω′和μ′是对应的网络权重参数;m为从经验回放池中取出、进行训练的序列数,序列为(s,a,r,s′),其中,初始化所述四旋翼无人机的状态s,r为奖励,s′为更新后四旋翼无人机的状态;变异过程是使用所述DDPG网络模型训练N个模型,借用A3C算法的思想,采用多线程并行训练的方法,N个模型共用一个经验回放池;训练完一批后,记录下每个模型的累积奖励和平均均方误差/>并分别记录下其中的最大值和最小值/>然后进行标准化处理:
假设2D基因序列j有最大的2D基因序列k有最小的/>训练的目的是最大化累积奖励R和最小化均方误差L,进行选择和交叉过程:
每个基因序列i分别有和/>的概率保留自己的Actor网络权重和Critic网络权重,有/>和/>的概率使用基因序列j的Actor权重、基因序列k的Critic权重来替代自己对应的权重,其中:
8.如权利要求7所述的基于深度强化学习的四旋翼无人机自主导航系统,其特征在于,通过在所述DDPG网络模型靠近输出的若干层网络参数上叠加噪声,同时根据训练情况自适应调节探索力度,在所述DDPG网络模型上提供一种自适应网络参数噪声法。
CN202210011567.3A 2022-01-06 2022-01-06 基于深度强化学习的四旋翼无人机自主导航方法与系统 Active CN114355980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210011567.3A CN114355980B (zh) 2022-01-06 2022-01-06 基于深度强化学习的四旋翼无人机自主导航方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210011567.3A CN114355980B (zh) 2022-01-06 2022-01-06 基于深度强化学习的四旋翼无人机自主导航方法与系统

Publications (2)

Publication Number Publication Date
CN114355980A CN114355980A (zh) 2022-04-15
CN114355980B true CN114355980B (zh) 2024-03-08

Family

ID=81106961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210011567.3A Active CN114355980B (zh) 2022-01-06 2022-01-06 基于深度强化学习的四旋翼无人机自主导航方法与系统

Country Status (1)

Country Link
CN (1) CN114355980B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115097857B (zh) * 2022-07-18 2024-04-30 浙江大学 复杂环境下考虑旋翼无人机外形的实时轨迹规划方法
CN114964269B (zh) * 2022-08-01 2022-11-08 成都航空职业技术学院 一种无人机路径规划方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及系统
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
CN112148008A (zh) * 2020-09-18 2020-12-29 中国航空无线电电子研究所 一种基于深度强化学习的实时无人机路径预测方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN112766499A (zh) * 2021-02-02 2021-05-07 电子科技大学 一种通过强化学习技术实现无人机自主飞行的方法
CN113093727A (zh) * 2021-03-08 2021-07-09 哈尔滨工业大学(深圳) 一种基于深度安全强化学习的机器人无地图导航方法
CN113408782A (zh) * 2021-05-11 2021-09-17 山东师范大学 基于改进的ddpg算法的机器人路径导航方法及系统
CN113835443A (zh) * 2021-10-08 2021-12-24 重庆大学 一种非传统欧式距离场的四旋翼无人机轨迹规划方法
CN113848974A (zh) * 2021-09-28 2021-12-28 西北工业大学 一种基于深度强化学习的飞行器轨迹规划方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210123741A1 (en) * 2019-10-29 2021-04-29 Loon Llc Systems and Methods for Navigating Aerial Vehicles Using Deep Reinforcement Learning

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及系统
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学习的智能移动平台无地图自主导航方法
CN112148008A (zh) * 2020-09-18 2020-12-29 中国航空无线电电子研究所 一种基于深度强化学习的实时无人机路径预测方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112766499A (zh) * 2021-02-02 2021-05-07 电子科技大学 一种通过强化学习技术实现无人机自主飞行的方法
CN113093727A (zh) * 2021-03-08 2021-07-09 哈尔滨工业大学(深圳) 一种基于深度安全强化学习的机器人无地图导航方法
CN113408782A (zh) * 2021-05-11 2021-09-17 山东师范大学 基于改进的ddpg算法的机器人路径导航方法及系统
CN113848974A (zh) * 2021-09-28 2021-12-28 西北工业大学 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN113835443A (zh) * 2021-10-08 2021-12-24 重庆大学 一种非传统欧式距离场的四旋翼无人机轨迹规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度强化学习的无人机数据采集和路径规划研究;牟治宇;张煜;范典;刘君;高飞飞;;物联网学报(第03期);全文 *

Also Published As

Publication number Publication date
CN114355980A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN110673620B (zh) 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN110333739B (zh) 一种基于强化学习的auv行为规划及动作控制方法
CN114355980B (zh) 基于深度强化学习的四旋翼无人机自主导航方法与系统
CN108919640B (zh) 无人机自适应多目标跟踪的实现方法
Cutler et al. Reinforcement learning with multi-fidelity simulators
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
Penicka et al. Learning minimum-time flight in cluttered environments
CN111857184B (zh) 基于深度强化学习的固定翼无人机群避碰方法及装置
CN113534668B (zh) 基于最大熵的演员-评论家框架的auv运动规划方法
Stevšić et al. Sample efficient learning of path following and obstacle avoidance behavior for quadrotors
Fang et al. Autonomous underwater vehicle formation control and obstacle avoidance using multi-agent generative adversarial imitation learning
CN113759901A (zh) 一种基于深度强化学习的移动机器人自主避障方法
Sarabakha et al. Y6 tricopter autonomous evacuation in an indoor environment using Q-learning algorithm
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN117215197B (zh) 四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质
Sebastian et al. Neural network based heterogeneous sensor fusion for robot motion planning
Zhou et al. Vision-based navigation of uav with continuous action space using deep reinforcement learning
CN111176324B (zh) 一种多无人机分布式协同编队规避动态障碍的方法
CN116774712A (zh) 一种欠驱动auv三维环境下的实时动态避障方法
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
CN112161626B (zh) 一种基于航路跟踪映射网络的高可飞性航路规划方法
CN114326826A (zh) 多无人机队形变换方法及系统
CN115185288B (zh) 一种基于sac算法的无人机分层飞行决策方法
Ma et al. Trajectory tracking of an underwater glider in current based on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant