CN114967721A - 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 - Google Patents
一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 Download PDFInfo
- Publication number
- CN114967721A CN114967721A CN202210648007.9A CN202210648007A CN114967721A CN 114967721 A CN114967721 A CN 114967721A CN 202210648007 A CN202210648007 A CN 202210648007A CN 114967721 A CN114967721 A CN 114967721A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- network
- layer
- capsule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000002775 capsule Substances 0.000 claims abstract description 86
- 230000009471 action Effects 0.000 claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 27
- 230000002787 reinforcement Effects 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 39
- 238000001514 detection method Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000001133 acceleration Effects 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 239000003795 chemical substances by application Substances 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000008092 positive effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000011782 vitamin Substances 0.000 claims description 3
- 229940088594 vitamin Drugs 0.000 claims description 3
- 229930003231 vitamin Natural products 0.000 claims description 3
- 235000013343 vitamin Nutrition 0.000 claims description 3
- 150000003722 vitamin derivatives Chemical class 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 239000000523 sample Substances 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000004888 barrier function Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229910052731 fluorine Inorganic materials 0.000 description 1
- 125000001153 fluoro group Chemical group F* 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于DQ‑CapsNet的无人机自助路径规划和避障策略方法,首先设定无人机状态信息,再设定无人机的动作信息和无人机的状态更新过程;然后定义奖励函数,引入胶囊网络算法,构建深度强化学习网络DQ‑CapsNet网络:最后基于DQ‑CapsNet网络,构建无人机路径规划与避障预训练模型并进行训练;本发明对提升无人机路径规划与避障模型训练效率以及无人机在陌生环境下对障碍物的识别率,且构建的无人机路径规划与避障模型具有更好的规划性能。
Description
技术领域
本发明属于无人机技术领域,具体涉及一种无人机自助路径规划和避障策略方法。
背景技术
无人机路径规划和避障是无人机技术研究领域及应用的核心问题,其指无人机在一定的目标环境下,从出发点到目标点之间找到或者规划出一条最优或次优的路径,并在其航迹飞行中实现避障。随着无人机在军事领域以及民用领域普及,无人机所应用的环境也日益复杂,规划一条实用有效的路径并进行实时避障不仅能够帮助无人机完成任务而且可以降低无人机损耗。在未知的环境下进行无人机路径规划称为环境信息未知的路径规划,无人机对环境的感知来源于机载传感器,由机载传感器所得信息规划出最优、次优路径具有一定的局限性,需要采用技术手段进行优化。
无人机路径规划相关算法发展迅速,传统常用的方法包括:导航向量场、蚁群算法、Dijkstra最短路径搜索法(贪婪算法)、D*算法等,这些方法虽然能够动态地规划出无人机的飞行路径,是一种局部路径规划方法,但是需要对具体环境建立模型,因此缺乏通用性。
近些年来随着人工智能技术的快速发展,机器学习在无人机领域展现出巨大潜力。深度强化学习(Deep Reinforcement Learning,简称DRL)已被广泛应用于智能控制、仿真模拟、任务优化、无人机路径规划等领域,其基本思想是通过智能体(Agent)在环境中不断试错从而获得最高累计奖励回报,以优化参数获得最优决策。但是在传统的卷积神经网络(Convolutional Neural Networks,CNN)网络与强化学习(Reinforcement Learning,DL)结合过程中会出现以下问题:1.DL需要大量的带标签的样本进行监督学习而RL只有reward返回值,而且伴随着噪声,延迟,稀疏等;2.DL的样本独立而RL前后state状态相关;3.DL目标分布固定而RL的分布一直变化即每个环境都需要单独训练等问题,简单的将DQN算法应用于无人机路径规划,缺乏泛化性。
胶囊(Capsule)的概念是由Sabour S等人首次提出,Hinton等人在2018年发表的论文中对胶囊网络中的动态路由迭代算法进行了介绍,并提出一种新的路由算法,对胶囊网络核心路由算法进行改进。改进的胶囊网络通过动态路由算法替代了CNN的池化操作,从而使得特征损失有所减小,能够在一定程度上提高图像识别的准确率。
在胶囊网络中,每个胶囊包含众多的神经元,每一个神经元存储了从图片中获取的部分特征。与CNN不同,胶囊网络中采用的是向量神经元而非标量神经元,这就使得神经元可以表达的信息更丰富,从而能够提高网络的识别率。每一个向量神经元都有其自身的属性,各种各样的实例化参数都可以包含于其属性当中,比如姿态、变形、速度等。除此之外胶囊还存在一个特殊属性,该属性描述的是图像中某一实例的存在与否。该属性的值为概率,其大小又取决于该向量的神经元的模长,模长越大则概率越大,反之亦然。向量神经元通过squash()函数进行激活,该函数能够对该向量的长度进行放大或缩小,而向量的长度又代表某一时间发生的可能性。经过该函数的激活后,能够将特征显著的向量进行放大,将特征不够明显的向量进行缩小,从而提高识别率。
相对于卷积网络的缺陷,胶囊网络具有很大的优势,胶囊网络仅需要少量的数据即可进行泛化,通过动态路由算法可降低噪声影响,因为算法只对两个方向一致的胶囊才产生较大的耦合系数,能通过此算法过滤掉返回值中的噪声。胶囊网络采用的是多胶囊向量形式,一个单元由多个胶囊进行表征,这可以解决传统深度学习与强化学习结合过程中,深度学习的样本独立,强化学习前后状态相关问题。由多个胶囊表征状态,当状态改变时仍然有一部分的胶囊相同。胶囊网络其使用空间细粒度表征,可以学习到更多的姿态信息,通过所学习到的姿态信息可预测到智能体下一步的状态,同时胶囊网络使用屏蔽机制保留不同环境下各个环境特征相近的胶囊。
发明内容
为了克服现有技术的不足,本发明提供了一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法,首先设定无人机状态信息,再设定无人机的动作信息和无人机的状态更新过程;然后定义奖励函数,引入胶囊网络算法,构建深度强化学习网络DQ-CapsNet网络:最后基于DQ-CapsNet网络,构建无人机路径规划与避障预训练模型并进行训练;本发明对提升无人机路径规划与避障模型训练效率以及无人机在陌生环境下对障碍物的识别率,且构建的无人机路径规划与避障模型具有更好的规划性能。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:设定无人机状态信息;
无人机的状态信息S设定为:
S=[Suav,Sdetect,Senvir]
其中,Suav,Sdetect,Senvir分别表示无人机自身状态信息、自身探测状态信息和环境状态信息;
设定任务场景宽度和长度分别为lwidth和llength,无人机的最大飞行高度为hmax;
设定无人机自身状态信息为:
其中,x,y,z分别表示无人机在x,y,z轴上的坐标信息,vx,vy,vz分别表示无人机在x,y,z轴上的速度信息,vmax为无人机最大速度;
分别利用j个距离传感器和j个高度传感器对无人机周围环境进行探测;
设定无人机自身探测状态信息为:
Sl detect=[Tl1,Tl2,...Tlj]/DTl
Sh detect=[Th1,Th2...Thj]/DTh
其中,Sl detect为无人机自身距离探测状态信息,Tl1~Tlj表示无人机的各距离传感器示数,DTl表示距离传感器探测范围;Sh detect为无人机自身高度探测状态信息,Th1~Thj表示无人机的各高度传感器示数,DTh表示高度传感器探测范围;
设定无人机环境状态信息为:
Senvir=[di,σi]
其中di和σi分别表示无人机与障碍物i的距离和水平相对方位角;
步骤2:设定无人机的动作信息和无人机的状态更新过程;
通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度的控制;因此,设定无人机的动作状态信息为:
AF=[Fx,Fy,Fz]
其中Fx,Fy,Fz分别表示无人机在x,y,z轴上的受力,则无人机的加速度表示为:
a=[ax,ay,az]=AF/muav=[Fx,Fy,Fz]/muav
其中,ax,ay,az分别表示无人机在x,y,z轴上的加速度,muav表示无人机的质量;基于无人机受力的无人机状态更新过程表示为:
其中,其中上标t表示时间,Pt、Vt、分别表示t时刻无人机的位置信息、速度信息和偏航角,xt-1,yt-1,zt-1分别表示t-1时刻无人机在x、y、z轴上的位置分量,分别表示t时刻无人机在x、y、z轴上的速度分量,分别表示t-1时刻无人机在x、y、z轴上的速度分量,dt表示无人机运动时间间隔,分别表示t时刻无人机加速度在x、y、z轴上的加速度分量;
定义无人机动作空间:
A=E[e1,e2,...e7]
其中e1,e2,...e7表示三维空间内无人机七种动作即上、下、前、后、左、右、悬停,网络执行动作状态信息选取无人机下一刻动作;
步骤3:定义奖励函数R;
步骤3-1:设定无人机靠近目的地奖励;
其中,xt,yt,zt分别表示t时刻无人机在x、y、z轴上的位置分量;xo,yo,zo分别为目的地的三维坐标位置;Po为目的地的位置;
步骤3-2:设定无人机安全飞行奖励;
步骤3-3:设定无人机任务完成奖励;
其中,rdestin为设定的到目的地的边界范围,当无人机的位置与目的地的位置相距小于rdestin时,视为无人机到达目的地;xo,yo,zo分别为目的地的三维坐标位置;
步骤3-4:设定无人机受到的总奖励为:
R=ρ1Rclose+ρ2Rsafe+ρ3Rfinish
其中,ρ1~ρ3表示三项奖励的相应的权重值;
步骤3-5:设定无人机路径规划与避障判定条件:当无人机位于目的地附近且无人机的位置与目的地的位置相距小于rdestin时,视为无人机到达目的地,此时无人机路径规划与避障任务完成;
步骤4:引入胶囊网络算法,构建深度强化学习网络DQ-CapsNet网络;
所述深度强化学习网络DQ-CapsNet网络包括深度强化学习DQN框架和胶囊网络框架;深度强化学习DQN框架包括Experience replay经验池、当前动作值网络和目标价值网络;胶囊网络框架包括卷积层、PrimaryCapsule主胶囊层、DigitCapsule数字胶囊层以及囊间动态路由算法;
由深度强化学习DQN框架改进后得到DQ-CapsNet网络包括以下步骤:
步骤4-1:构建状态特征提取层:特征提取层由一层卷积层构成Conv1,卷积核大小、输入维度、输出维度、滑动步长如下所示,采用Relu激活函数:
Conv1:5×5,1,256,2;
步骤4-2:构建融合PrimaryCapsule层:该层采用PrimaryCapsule胶囊层构成,将Conv1层的输出Co展平为的矢量,其中为该层的胶囊的数量,为该层胶囊的维度;将展平的矢量进行维度变换得到低层胶囊Clower;
该层使用的卷积核大小,输入维度、输出维度、滑动步长如下所示:
PrimaryCapsule:9×9,256,8,2;
步骤4-3:低层胶囊动态路由Routing算法处理:对低层胶囊Clower采用动态路由算法,初始化低层胶囊Clower中向量vp与高层胶囊Chigh中向量up|q的连接概率参数bqp=0,设置算法迭代次数riter次开始迭代,得到向量加权求和的权重参数cqp:
得到低层胶囊p层中向量:
vp=∑qcqpup|q
然后将向量vp输入非线性函数squash()得到输出向量υp:
更新连接概率参数bqp=bqp+up|qυp;
迭代riter次后输出由高层特征向量υp组成的高层胶囊Chigh;
步骤4-4:构建DigitCapsule数字胶囊层:
初始化关系矩阵W,该层的输入为Dlcow维的高层胶囊Chigh,对高层胶囊Chigh中的特征向量继续采用动态路由算法,得到本层输出:
υdim=Wdimυp
步骤4-5:网络增加第四层全连接层Fully层,降低由DigitCapsule数字胶囊层输出的矩阵的维度,得到无人机飞行动作输出;
步骤5:基于DQ-CapsNet网络,构建无人机路径规划与避障预训练模型并进行训练;
步骤5-2:初始化超参数:经验回放池大小为N,采样大小为Sbatch,每回合最大步长为T,奖励折扣因子γ,最大回合数为M,训练频次为C,批处理数Bsize,网络学习率lr,路由算法迭代次数riter,目标网络更新间隔Tp,设定初始回合数ep=0;
步骤5-3:初始化无人机的状态s1={x1}和状态预处理队列φ1=φ1(s1),更新当前时刻为t=0;其中,x1为初始时刻系统状态;
步骤5-4:对于每个无人机,如已有策略则根据策略ε选取t时刻动作at,否则at=argmaxa Q(φ(st),a;θ);
步骤5-5:无人机与环境交互执行动作at后,得到奖励值rt,得到下一时刻状态st+1={xt+1};设置t+1时刻无人机状态st+1=st,动作at,t+1系统状态xt+1和状态预处理队列φt+1=φ(st+1);
步骤5-6:存储经验样本(φt,at,rt,φt+1)于经验回放队列中;
计算目标值:
其中,γ为奖励折扣因子,a′为下一时刻无人机的动作;
通过损失函数对在线价值网络进行更新:
L(θ,k)=E[(yg-Q(s,a,θ))2+β(Tkmax(0,m+-||ak||)2+λ(1-Tk)max(0,||ak||-m-)2)]
其中,yg为目标值;γ为奖励折扣因子;s,a分别表示此刻的状态和动作,Q(s,a,θ)为价值函数,θ表示逼近函数的网络参数,在此采用胶囊网络逼近,θ为CapsNet网络的权值,采用CapsNet网络的权值作为Q(s,a,θ)的网络参数;β为组合系数;Tk表示下一时刻k类动作是否存在,存在为1,不存在为0;m+为惩罚假阳性动作ak因子;m-为惩罚假阴性动作ak因子;
步骤5-8:更新无人机智能体目标价值网络参数:
θ′=τθ+(1-τ)θ′
其中,τ表示更新比例系数;
步骤5-9:更新步长t+1,执行条件判定:当t<T且不满足步骤3-5所示无人机路径规划与避障条件时,进入步骤5-4;否则进入步骤5-10;
步骤5-10:更新回合数ep加1,执行判定:若ep<M,则更新步骤至步骤5-3;否则,训练完成,进入步骤5-11;
步骤5-11:终止DQ-CapsNet网络训练过程,保存当前网络参数;将保存好的参数加载至无人机路径规划与避障系统中;每一时刻,无人机分别将其状态信息输入至神经网络中,通过DQ-CapsNet神经网络进行拟合,输出无人机飞行动作,使无人机能够在环境中进行路径规划和避障。
本发明的有益效果如下:
1)本发明构建的基于深度强化学习的无人机系统控制模型,采用离线式训练、在线式执行方法,能够实现无人机自主规划路径与避障,且无人机产生的行为策略更加灵活;
2)本发明将深度强化学习DQN网络和胶囊网络相结合,针对无人机路径规划与避障任务场景,设立相应的奖励函数鼓励无人机在不同的状态下学习合适的行为策略,能够使无人机在面对不同的环境时其探测的泛化能力增强;
3)本发明在训练之前改变网络结构,利用胶囊网络动态路由算法可降低环境噪声影响,然后在经验样本中引入多种路径规划与避障数据,对样本采样效率进行改进、提升无人机路径规划与避障模型训练效率以及无人机在陌生环境下对障碍物的识别率,且构建的无人机路径规划与避障模型具有更好的规划性能。
附图说明
图1为本发明基于DQ-CapsNet的无人机路径规划与避障模型构建示意图。
图2为本发明无人机二维平面探测示意图。
图3为本发明无人机三维探测示意图。
图4为本发明探测无人机与目的地和障碍物的位置关系示意图。
图5为本发明构建的DQ-CapsNet网络模型;
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明的目的在于提供一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法,该方法能够解决卷积神经网络与强化学习结合的问题、使无人机在环境信息未知的连续状态下进行无人机路径规划与避障、增加网络泛化能力,具有很好的适用性。
其模型训练、测试和构建流程如图1所示。下面结合附图和具体实施例,对该技术方案进一步清晰和完整的描述:
步骤1:设定无人机状态信息:
对于无人机,其状态信息S设定为:
S=[Suav,Sdetect,Senvir]
其中,Suav,Sdetect,Senvir分别表示无人机自身状态信息、自身探测状态信息、环境状态信息;
具体地,在无人机自助路径规划和避障任务中,设定任务场景宽度和长度分别为lwidth和llength,设定lwidth=5km,llength=5km;无人机的最大飞行高度为hmax,设定hmax=1km,对于无人机设定无人机自身状态信息为:
其中,x,y,z分别表示无人机在x,y,z轴上的坐标信息,vx,vy,vz分别表示无人机在x,y,z轴上的速度信息,vmax为无人机最大速度,设定vmax=0.1km/s;
分别利用j=8个距离传感器和j=8个高度传感器对无人机周围环境进行探测;对于无人机,设定自身探测状态信息为:
Sl detect=[Tl1,Tl2,...Tlj]/DTl
Sh detect=[Th1,Th2...Thj]/DTh
其中,Sl detect为无人机自身距离探测状态信息,Tl1~Tlj表示无人机的各距离传感器示数,DTl表示距离传感器探测范围,设定DTl=0.2km;Sh detect为无人机自身高度探测状态信息Th1~Thj表示无人机的各高度传感器示数,DTh表示高度传感器探测范围,设定DTh=0.2km。无人机二维探测模型如图2所示,三维探测模型如图3所示。当传感器探测到障碍物时,Tl∈[0,0.2km],Th∈[0,0.2km],分别表示无人机到障碍物的距离和高度;
对于无人机,设定环境状态信息为:
步骤2:设定无人机的动作信息、动作空间和无人机的状态更新过程:
通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度的控制进而执行无人机动作;
设定无人机的动作状态信息为:
AF=[Fx,Fy,Fz]
其中Fx,Fy,Fz分别表示无人机在x,y,z轴上的受力,则无人机的加速度表示为:
a=[ax,ay,az]=AF/muav=[Fx,Fy,Fz]/muav
其中,ax,ay,az分别表示无人机在x,y,z轴上的加速度,无人机最大加速度的值||a||=0.04km/s2,muav表示无人机的质量,设定muav=3kg;基于无人机受力的无人机状态更新过程表示为:
其中,其中上标t表示时间,Pt,Vt,分别表示t时刻无人机的位置信息、速度信息和偏航角,xt-1,yt-1,zt-1分别表示t-1时刻无人机在x、y、z轴上的位置分量,分别表示t时刻无人机在x、y、z轴上的速度分量,分别表示t-1时刻无人机在x、y、z轴上的速度分量,dt表示无人机运动时间间隔,分别表示t时刻无人机加速度在x、y、z轴上的加速度分量;
定义无人机动作空间:
A=E[e1,e2,...e7]
其中e1,e2,...e7表示三维空间内无人机七种动作即上、下、前、后、左、右、悬停,网络执行动作状态信息选取无人机下一刻动作;
步骤3:定义奖励函数R:
步骤3-1:对于无人机,设定无人机靠近目的地奖励:
其中,xt,yt,zt分别表示t时刻无人机在x、y、z轴上的位置分量;xo,yo,zo分别为目的地的三维坐标位置;Po为目的地的位置;
步骤3-2:对于无人机,设定无人机安全飞行奖励:
步骤3-3:对于无人机,设定无人机任务完成奖励:
rdestin为设定的到目的地的边界范围,当无人机的位置与目的地的位置相距小于rdestin=0.01km时,视为无人机到达目的地。
步骤3-4:对于无人机,设定其受到的总奖励为:
R=ρ1Rclose+ρ2Rsafe+ρ3Rfinish
其中,ρ1~ρ3表示三项奖励的相应的权重值,设定ρ1=0.2,ρ2=0.3,ρ3=0.5;
步骤3-5:设定无人机路径规划与避障判定条件:当无人机位于目的地附近且无人机的位置与目的地的位置相距小于rdestin=0.01km时,视为无人机到达目的地,此时无人机路径规划与避障任务完成;
步骤4:引入胶囊网络,构建DQ-CapsNet网络:
所述深度强化学习网络DQ-CapsNet网络包括深度强化学习DQN框架和胶囊网络框架;DQN深度强化学习网络框架包括Experience replay经验池、当前动作值网络、目标价值网络等;胶囊网络框架包括卷积层、PrimaryCapsule主胶囊层、DigitCapsule数字胶囊层以及囊间动态路由算法;
DQN网络包括:
当前动作值网络:使用神经网络构建的当前动作值网络,用来评估当前状态动作对的值函数,输出为Q(s,a;θ);
目标价值网络:使用另一个网络产生目标Q值,输出为Q(s,a;θ-);根据损失函数更新当前动作值网络的参数,经过一定次数的迭代,将当前动作值网络的参数复制给目标价值网络;
其中s,a,θ,θ-分别表示无人机状态,无人机动作,动作值网络参数和目标价值网络参数;
进一步地,由深度强化学习DQN网络改进后得到DQ-CapsNet网络包括以下步骤:
步骤4-1:构建状态特征提取层:特征提取层由一层卷积层构成Conv1,各层的卷积核大小、输入维度、输出维度、滑动步长如下所示,采用Relu激活函数:
Conv1:5×5,1,256,2;
步骤4-2:构建融合PrimaryCapsule层:该层主要为PrimaryCapsule胶囊层构成,将Conv1层的输出Co展平为的矢量,其中为该层的胶囊的数量,为该层胶囊的维度;将展平的矢量进行维度变换得到低层胶囊Clower;
该层使用的卷积核大小,输入维度、输出维度、滑动步长如下所示:
PrimaryCapsule:9×9,256,8,2;
步骤4-3:低层胶囊动态路由Routing算法处理:对低层胶囊Clower采用动态路由算法,初始化低层胶囊Clower中向量vp与高层胶囊Chigh中向量up|q的连接概率bqp=0,设置算法迭代次数riter=3次开始迭代,得到向量加权求和的权重参数cqp:
得到低层胶囊中的向量:
vp=∑qcqpup|q
最后将向量vp输入非线性函数squash()得到输出向量υp:
更新连接概率参数bqp=bqp+up|qυp;
迭代riter次后输出由高层特征向量υp组成的高层胶囊Chigh;
步骤4-4:构建DigitCapsule数字胶囊层:
υdim=Wdimυp
步骤4-5:网络增加第四层全连接层Fully层,降低由DigitCapsule数字胶囊层输出的矩阵参数的维度,得到无人机飞行动作输出;
构建的DQ-CapsNet网络模型如图5所示;
步骤5:基于DQ-CapsNet算法,构建无人机路径规划与避障预训练模型并进行训练:
步骤5-2:初始化超参数:经验回放池大小为N=100000,采样大小为Sbatch=256,每回合最大步长为T=100,奖励折扣因子γ=0.99,最大回合数为M=20000,批处理数Bsize=256,网络学习率lr=0.0001~0.01,路由算法迭代次数riter=3次,目标网络更新间隔Tp=10步,设定初始回合数ep=0;在训练过程中使用GPU进行加速训练;
步骤5-3:初始化无人机的状态s1={x1}和状态预处理队列φ1=φ1(s1),更新当前时刻为t=0;其中,x1为初始时刻系统状态;
步骤5-4:对于每个无人机,如有策略则根据策略ε选取t时刻动作at,否则at=argmaxaQ(φ(st),a;θ);
步骤5-5:无人机与环境交互执行动作at后,得到奖励值rt,得到下一时刻状态st+1={xt+1};设置t+1时刻无人机状态st+1=st,动作at,t+1系统状态xt+1和状态预处理队列φt+1=φ(st+1);
步骤5-6:存储经验样本(φt,at,rt,φt+1)于经验回放队列中;
步骤5-7:根据采样Sbatch个(φg,ag,rg,φg+1)样本数据,其中c表示被抽取的经验样本的序号,pc表示优先级,根据程序运行进行设置,参数α为用于调节样本优先采样程度的参数,设置为α=0.2;
计算目标值:
其中,γ=0.99为奖励折扣因子,a′为下一时刻无人机的动作;
通过损失函数对在线价值网络进行更新:
L(θ,k)=E[(yg-Q(s,a,θ))2+β(Tkmax(0,m+-||ak||)2+λ(1-Tk)max(0,||ak||-m-)2)]
其中,yg为目标值;γ=0.99为奖励折扣因子,距离当前时刻越远的奖励衰减越显著;s,a分别表示此刻的状态和动作,Q(s,a,θ)为价值函数,θ表示逼近函数的网络参数,在此采用胶囊网络逼近,θ为CapsNet网络的权值,采用CapsNet网络的权值作为Q(s,a,θ)的网络参数;β为组合系数,设置β=0.9;Tk表示下一时刻k类动作是否存在,存在为1,不存在为0;m+为惩罚假阳性动作ak因子设置m+=0.9,ak存在但是预测不存在会导致此部分损失函数很大;m-为惩罚假阴性动作ak因子,设置m-=0.1,ak不存在但是预测存在,会导致此部分损失函数很大。
步骤5-8:更新无人机智能体目标价值网络参数
θ′=τθ+(1-τ)θ′
τ表示更新比例系数,在训练过程中设置τ=0.01;
步骤5-9:更新步长t+1,执行条件判定:当t<T且不满足步骤3-5所示无人机路径规划与避障条件时,进入步骤5-4;否则进入步骤5-10;
步骤5-10:更新回合数ep+1,执行判定:若ep<M,则更新步骤至步骤5-3;否则,训练完成,进入步骤5-11;
步骤5-11:终止DQ-CapsNet网络训练过程,保存当前网络参数;将保存好的参数加载至无人机路径规划与避障系统中;每一时刻,无人机分别将其状态信息输入至神经网络中,通过DQ-CapsNet神经网络进行拟合,输出无人机飞行动作,使无人机能够在环境中进行路径规划和避障。
本发明提出的无人机路径规划与避障策略方法,能够为无人机系统提供自主学习和自适应能力,使无人机系统能够动态感知环境变化,在不同的状态下决策出合适的动作,最终完成路径规划与避障任务,同时提升了无人机系统在面对不同环境时的泛化能力。
Claims (1)
1.一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法,其特征在于,包括如下步骤:
步骤1:设定无人机状态信息;
无人机的状态信息S设定为:
S=[Suav,Sdetect,Senvir]
其中,Suav,Sdetect,Senvir分别表示无人机自身状态信息、自身探测状态信息和环境状态信息;
设定任务场景宽度和长度分别为lwidth和llength,无人机的最大飞行高度为hmax;
设定无人机自身状态信息为:
其中,x,y,z分别表示无人机在x,y,z轴上的坐标信息,vx,vy,vz分别表示无人机在x,y,z轴上的速度信息,vmax为无人机最大速度;
分别利用j个距离传感器和j个高度传感器对无人机周围环境进行探测;
设定无人机自身探测状态信息为:
Sl detect=[Tl1,Tl2,…Tlj]/DTl
Sh detect=[Th1,Th2…Thj]/DTh
其中,Sl detect为无人机自身距离探测状态信息,Tl1~Tlj表示无人机的各距离传感器示数,DTl表示距离传感器探测范围;Sh detect为无人机自身高度探测状态信息,Th1~Thj表示无人机的各高度传感器示数,DTh表示高度传感器探测范围;
设定无人机环境状态信息为:
Senvir=[di,σi]
其中di和σi分别表示无人机与障碍物i的距离和水平相对方位角;
步骤2:设定无人机的动作信息和无人机的状态更新过程;
通过直接控制无人机的受力,实现对无人机的运动姿态和飞行速度的控制;因此,设定无人机的动作状态信息为:
AF=[Fx,Fy,Fz]
其中Fx,Fy,Fz分别表示无人机在x,y,z轴上的受力,则无人机的加速度表示为:
a=[ax,ay,az]=AF/muav=[Fx,Fy,Fz]/muav
其中,ax,ay,az分别表示无人机在x,y,z轴上的加速度,muav表示无人机的质量;基于无人机受力的无人机状态更新过程表示为:
其中,其中上标t表示时间,Pt、Vt、分别表示t时刻无人机的位置信息、速度信息和偏航角,xt-1,yt-1,zt-1分别表示t-1时刻无人机在x、y、z轴上的位置分量,分别表示t时刻无人机在x、y、z轴上的速度分量,分别表示t-1时刻无人机在x、y、z轴上的速度分量,dt表示无人机运动时间间隔,分别表示t时刻无人机加速度在x、y、z轴上的加速度分量;
定义无人机动作空间:
A=E[e1,e2,...e7]
其中e1,e2,...e7表示三维空间内无人机七种动作即上、下、前、后、左、右、悬停,网络执行动作状态信息选取无人机下一刻动作;
步骤3:定义奖励函数R;
步骤3-1:设定无人机靠近目的地奖励;
其中,xt,yt,zt分别表示t时刻无人机在x、y、z轴上的位置分量;xo,yo,zo分别为目的地的三维坐标位置;Po为目的地的位置;
步骤3-2:设定无人机安全飞行奖励;
步骤3-3:设定无人机任务完成奖励;
其中,rdestin为设定的到目的地的边界范围,当无人机的位置与目的地的位置相距小于rdestin时,视为无人机到达目的地;xo,yo,zo分别为目的地的三维坐标位置;
步骤3-4:设定无人机受到的总奖励为:
R=ρ1Rclose+ρ2Rsafe+ρ3Rfinish
其中,ρ1~ρ3表示三项奖励的相应的权重值;
步骤3-5:设定无人机路径规划与避障判定条件:当无人机位于目的地附近且无人机的位置与目的地的位置相距小于rdestin时,视为无人机到达目的地,此时无人机路径规划与避障任务完成;
步骤4:引入胶囊网络算法,构建深度强化学习网络DQ-CapsNet网络;
所述深度强化学习网络DQ-CapsNet网络包括深度强化学习DQN框架和胶囊网络框架;深度强化学习DQN框架包括Experience replay经验池、当前动作值网络和目标价值网络;胶囊网络框架包括卷积层、PrimaryCapsule主胶囊层、DigitCapsule数字胶囊层以及囊间动态路由算法;
由深度强化学习DQN框架改进后得到DQ-CapsNet网络包括以下步骤:
步骤4-1:构建状态特征提取层:特征提取层由一层卷积层构成Conv1,卷积核大小、输入维度、输出维度、滑动步长如下所示,采用Relu激活函数:
Conv1:5×5,1,256,2;
步骤4-2:构建融合PrimaryCapsule层:该层采用PrimaryCapsule胶囊层构成,将Conv1层的输出Co展平为的矢量,其中为该层的胶囊的数量,为该层胶囊的维度;将展平的矢量进行维度变换得到低层胶囊Clower;
该层使用的卷积核大小,输入维度、输出维度、滑动步长如下所示:
PrimaryCapsule:9×9,256,8,2;
步骤4-3:低层胶囊动态路由Routing算法处理:对低层胶囊Clower采用动态路由算法,初始化低层胶囊Clower中向量vp与高层胶囊Chigh中向量up|q的连接概率参数bqp=0,设置算法迭代次数riter次开始迭代,得到向量加权求和的权重参数cqp:
得到低层胶囊p层中向量:
vp=∑qcqpup|q
然后将向量vp输入非线性函数squash()得到输出向量υp:
更新连接概率参数bqp=bqp+up|qυp;
迭代riter次后输出由高层特征向量υp组成的高层胶囊Chigh;
步骤4-4:构建DigitCapsule数字胶囊层:
υdim=Wdimυp
步骤4-5:网络增加第四层全连接层Fully层,降低由DigitCapsule数字胶囊层输出的矩阵的维度,得到无人机飞行动作输出;
步骤5:基于DQ-CapsNet网络,构建无人机路径规划与避障预训练模型并进行训练;
步骤5-2:初始化超参数:经验回放池大小为N,采样大小为Sbatch,每回合最大步长为T,奖励折扣因子γ,最大回合数为M,训练频次为C,批处理数Bsize,网络学习率lr,路由算法迭代次数riter,目标网络更新间隔Tp,设定初始回合数ep=0;
步骤5-3:初始化无人机的状态s1={x1}和状态预处理队列φ1=φ1(s1),更新当前时刻为t=0;其中,x1为初始时刻系统状态;
步骤5-4:对于每个无人机,如已有策略则根据策略ε选取t时刻动作at,否则at=argmaxaQ(φ(st),a;θ);
步骤5-5:无人机与环境交互执行动作at后,得到奖励值rt,得到下一时刻状态st+1={xt+1};设置t+1时刻无人机状态st+1=st,动作at,t+1系统状态xt+1和状态预处理队列φt+1=φ(st+1);
步骤5-6:存储经验样本(φt,at,rt,φt+1)于经验回放队列中;
计算目标值:
其中,γ为奖励折扣因子,a′为下一时刻无人机的动作;
通过损失函数对在线价值网络进行更新:
L(θ,k)=E[(yg-Q(s,a,θ))2+β(Tkmax(0,m+-||ak||)2+λ(1-Tk)max(0,||ak||-m-)2)]
其中,yg为目标值;γ为奖励折扣因子;s,a分别表示此刻的状态和动作,Q(s,a,θ)为价值函数,θ表示逼近函数的网络参数,在此采用胶囊网络逼近,θ为CapsNet网络的权值,采用CapsNet网络的权值作为Q(s,a,θ)的网络参数;β为组合系数;Tk表示下一时刻k类动作是否存在,存在为1,不存在为0;m+为惩罚假阳性动作ak因子;m-为惩罚假阴性动作ak因子;
步骤5-8:更新无人机智能体目标价值网络参数:
θ′=τθ+(1-τ)θ′
其中,τ表示更新比例系数;
步骤5-9:更新步长t+1,执行条件判定:当t<T且不满足步骤3-5所示无人机路径规划与避障条件时,进入步骤5-4;否则进入步骤5-10;
步骤5-10:更新回合数ep加1,执行判定:若ep<M,则更新步骤至步骤5-3;否则,训练完成,进入步骤5-11;
步骤5-11:终止DQ-CapsNet网络训练过程,保存当前网络参数;将保存好的参数加载至无人机路径规划与避障系统中;每一时刻,无人机分别将其状态信息输入至神经网络中,通过DQ-CapsNet神经网络进行拟合,输出无人机飞行动作,使无人机能够在环境中进行路径规划和避障。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210648007.9A CN114967721B (zh) | 2022-06-08 | 2022-06-08 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210648007.9A CN114967721B (zh) | 2022-06-08 | 2022-06-08 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114967721A true CN114967721A (zh) | 2022-08-30 |
CN114967721B CN114967721B (zh) | 2024-04-16 |
Family
ID=82960853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210648007.9A Active CN114967721B (zh) | 2022-06-08 | 2022-06-08 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114967721B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115855226A (zh) * | 2023-02-24 | 2023-03-28 | 青岛科技大学 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180308371A1 (en) * | 2017-04-19 | 2018-10-25 | Beihang University | Joint search method for uav multiobjective path planning in urban low altitude environment |
CN112241176A (zh) * | 2020-10-16 | 2021-01-19 | 哈尔滨工程大学 | 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法 |
CN112947562A (zh) * | 2021-02-10 | 2021-06-11 | 西北工业大学 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
-
2022
- 2022-06-08 CN CN202210648007.9A patent/CN114967721B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180308371A1 (en) * | 2017-04-19 | 2018-10-25 | Beihang University | Joint search method for uav multiobjective path planning in urban low altitude environment |
CN112241176A (zh) * | 2020-10-16 | 2021-01-19 | 哈尔滨工程大学 | 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法 |
CN112947562A (zh) * | 2021-02-10 | 2021-06-11 | 西北工业大学 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
Non-Patent Citations (1)
Title |
---|
何金;丁勇;杨勇;黄鑫城;: "未知环境下基于PF-DQN的无人机路径规划", 兵工自动化, no. 09, 9 September 2020 (2020-09-09) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115855226A (zh) * | 2023-02-24 | 2023-03-28 | 青岛科技大学 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
CN115855226B (zh) * | 2023-02-24 | 2023-05-30 | 青岛科技大学 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
CN115993831A (zh) * | 2023-03-23 | 2023-04-21 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
CN115993831B (zh) * | 2023-03-23 | 2023-06-09 | 安徽大学 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114967721B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111667513B (zh) | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 | |
CN111780777B (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
WO2021135554A1 (zh) | 一种无人车全局路径规划方法和装置 | |
CN109870162B (zh) | 一种基于竞争深度学习网络的无人机飞行路径规划方法 | |
CN114967721B (zh) | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 | |
CN111399541B (zh) | 无监督学习型神经网络的无人机全区域侦察路径规划方法 | |
Wang et al. | A deep reinforcement learning approach to flocking and navigation of uavs in large-scale complex environments | |
Xiaofei et al. | Global path planning algorithm based on double DQN for multi-tasks amphibious unmanned surface vehicle | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN113268074B (zh) | 一种基于联合优化的无人机航迹规划方法 | |
CN112947592B (zh) | 一种基于强化学习的再入飞行器轨迹规划方法 | |
Yue et al. | Deep reinforcement learning and its application in autonomous fitting optimization for attack areas of UCAVs | |
CN113641192A (zh) | 一种基于强化学习的无人机群智感知任务的路径规划方法 | |
CN115016534A (zh) | 一种基于记忆增强学习的无人机自主避障导航方法 | |
Zhao et al. | Reinforcement learning-based collision avoidance guidance algorithm for fixed-wing uavs | |
CN112114592B (zh) | 一种实现无人机自主穿越可移动框形障碍物的方法 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN116242364A (zh) | 一种基于深度强化学习的多无人机智能导航方法 | |
CN115033022A (zh) | 面向移动平台基于专家经验的ddpg无人机降落方法 | |
Zhang et al. | A bionic dynamic path planning algorithm of the micro UAV based on the fusion of deep neural network optimization/filtering and hawk-eye vision | |
Zijian et al. | Imaginary filtered hindsight experience replay for UAV tracking dynamic targets in large-scale unknown environments | |
Xue et al. | Multi-agent deep reinforcement learning for uavs navigation in unknown complex environment | |
Liang et al. | Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network | |
Chen et al. | A study of unmanned path planning based on a double-twin RBM-BP deep neural network | |
CN116679710A (zh) | 一种基于多任务学习的机器人避障策略训练与部署方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |