CN109992000A - 一种基于分层强化学习的多无人机路径协同规划方法及装置 - Google Patents
一种基于分层强化学习的多无人机路径协同规划方法及装置 Download PDFInfo
- Publication number
- CN109992000A CN109992000A CN201910268774.5A CN201910268774A CN109992000A CN 109992000 A CN109992000 A CN 109992000A CN 201910268774 A CN201910268774 A CN 201910268774A CN 109992000 A CN109992000 A CN 109992000A
- Authority
- CN
- China
- Prior art keywords
- neural network
- unmanned plane
- network
- target
- plane
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002787 reinforcement Effects 0.000 title claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 133
- 230000033001 locomotion Effects 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims abstract description 38
- 230000001537 neural effect Effects 0.000 claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 230000007423 decrease Effects 0.000 claims abstract description 5
- 239000000284 extract Substances 0.000 claims abstract 2
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 210000002569 neuron Anatomy 0.000 claims description 17
- 241000590572 Bia <butterfly> Species 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 14
- 239000003795 chemical substances by application Substances 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 12
- 230000007613 environmental effect Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000004888 barrier function Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000008901 benefit Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 2
- 238000012958 reprocessing Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 230000001276 controlling effect Effects 0.000 description 12
- 238000012544 monitoring process Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 210000005036 nerve Anatomy 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 235000019606 astringent taste Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004387 environmental modeling Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 235000001968 nicotinic acid Nutrition 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Feedback Control In General (AREA)
Abstract
本发明一种一种基于分层强化学习的多无人机路径协同规划方法及装置,提取多无人机中的每个无人机的特征空间;再依据多无人机中无人机的任务目标,对任务目标中需要执行的任务进行分层即分为多个子任务,每一个子任务由一个神经网络实现,形成由多个子任务构成的各神经网络,并初始化各神经网络参数,得到初始各神经网络;对各神经网络进行关联;输出结果与目标输出之间的差距作为损失函数,利用梯度下降对进行各神经网络进行参数更新,当损失函数的值小于给定阈值时或达到指定的步数时,各神经网络训练完毕;将各自特征空间中的特征向量依次通过步各神经网络,得到各输出值;选取使最大的动作,作为各无人机的控制信号,即实现多无人机协同路径规划。
Description
技术领域
本发明属于飞行器技术领域,涉及一种基于分层强化学习的多飞行器避障、协同路径规划、编队控制等复杂行为控制,特别是一种基于分层强化学习的多无人机路径协同规划方法及装置
背景技术
随着计算力水平和人工智能领域的长足进步,多旋翼无人机可以执行的任务难度越来越高,可以执行的任务种类越来越复杂,为人们的生活和社会生产力的流动带来了便捷和促进。多无人机任务协同是当前多智能体控制方法研究中的热点和难点,它涉及单智能体的路径规划与避障、多智能体之间的感知和动作调控。在多无人机任务协同中,每架无人机既要有一个从起点到终点的路径选择,它的约束通常是路径长度较短、能够合理避障;除此,无人机之间需要有感知和配合,以协同完成更为复杂的任务,例如:农用植保飞行器需要协同规划路径,以最大范围覆盖农业工作区;物流飞行器针对配送点的不同,合理分配任务,以最短的时间将包裹运送至顾客手中。
考虑到低空飞行器的飞行环境较为复杂,存在静态障碍、动态障碍以及类似风、特征未知的威胁源等随机因素的干扰,除此,飞行器本身的续航能力、机动性、激光雷达探测范围等还会产生约束,多无人机的任务协同很难用几个特定的算法进行控制。
国内外研究学者针对多智能体任务协同问题做了深入和精彩的工作。在单智能体的路径规划方面,传统的以A*算法为代表的图搜索算法,需要对智能体的环境进行建模,进行栅格化处理,这要求智能体的环境是已知的且相对较确定;除此,当环境较复杂时,这类算法的计算速度非常缓慢,不利于实时的任务规划。这些约束大大限制了这类算法在实际中的应用。以粒子群和蚁群算法为代表的仿生学算法,在进行路径规划时只能找到一个较优解,当环境变化时,很容易陷入局部最优。在多智能体协同研究方面,多使用约束函数对目标函数进行设计,再使用遗传算法等对目标函数进行优化。这类方法可解释性强,设计层次分明,但是可迁移性差,对一个新的场景需要重新进行目标函数的设计和计算;而且依赖遗传算法的优化方法通常速度慢、收敛性差。
随着人工智能技术的进步,近年来基于深度神经网络和深度强化学习的智能体控制方法进入大众视野。强化学习是机器学习的重要分支之一,它通过对环境建模,对智能体的每一个动作进行反馈,通过设置累积奖励的目标函数,最大化一个智能体在当前状态所能取得的未来期望收获,来辅助智能体在每一个状态采取更明智的行为和动作。深度强化学习是一类利用神经网络优化智能体策略的算法,它通过神经网络存储参数的功能,消除了传统强化学习算法,诸如:时序差分、现实策略差分算法中的维度灾难问题,为实时计算提供了思路。2015年,DeepMind团队发表在美国《自然》杂志上的文章,首次展示了利用深度神经网络驱动的强化学习算法在完成Atari等街机游戏任务上,取得了超越人类专家级水平的成绩。2018年,DeepMind团队提出的“多智能体演员-评论家”模型,让多智能体之间的复杂行为调控成为了可能。
深度学习网络的非线性和不可解释性,使得许多具有映射关系的问题,都可以通过一个网络进行计算。理论而言,多无人机任务协同任务的计算可以通过一个非常深的网络进行计算和存储,但是这个深度网络的收敛性难以保证;况且,单一的神经网络鲁棒性很差,泛化能力弱,环境的轻微变化都有可能导致网络的崩溃和发散。但目前较为成功和成熟的深度学习框架都是通过一个核心的深度网络,对所有智能体的状态动作、策略行为进行计算。虽然A3C等算法等引入了多个子网络对主网络进行并行计算,加快了算法收敛的速度,但是其本质上,仍然是只有一个网络在计算所有的状态和动作空间。
现有的利用强化学习算法进行无人机自主路径规划的技术中,最明显的缺点就是环境的轻微改变就会给神经网络带来巨大的波动,所以现有的方法无法适应复杂高动态的环境,网络收敛性以及泛化能力能很弱,所以实际工程中很难运用深度学习进行多无人机协同路径规划这种复杂任务。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于分层强化学习的空中多无人机任务协同方法及装置,较传统路径规划算法而言,具有不依赖完全信息的自主认知能力;相比于深度学习驱动的路径规划算法而言,由于采取了层次性网络体系架构,因此训练速度快、鲁棒性高。使得在实际工程中利用深度强化学习进行多无人机协同路径规划成为可能。
本发明的原理:
首先,单个智能体需要对自己的雷达探测信号进行向量化处理,作为描述智能体空间状态的一种表示方式。这些状态序列存在时空关联性,所以对状态进行计算和网络前向通过时,考虑具有时序存贮记忆的循环神经网络。
其次,神经网络的训练需要监督数据,监督数据来自智能体与环境的交互产生的一系列序列。交互序列存在高的时空关联性,而神经网络的训练需要训练集的独立同分布,否则训练效果会大打折扣。为此,对训练集采用了Experience Replay的结构处理,当交互序列未达到上限时,不断存储这些序列,当进行神经网络训练时,要随机从该结构中抽取部分序列进行训练。神经网络的目标函数设置成最小化Qtar get和Qeval之间的差异。因为Qeval和Qtar get采用了相同的神经网络,在同一时间步同时更新两个网络参数,当某一回合产生较大方差时,这个偏差会立刻传递到下一个更新回合中,造成数据的巨大波动。为了解决这个问题,采用了分步时间差更新方法,每一步都更新Qeval的参数,一定步数后,再对Qtar get参数进行更新。最后,为了提高算法的鲁棒性和收敛性,采用了分层训练的方法。不同低层神经网络实现了不同的低级功能:无人机在探测到障碍时的转向动作、探测到目标点时向目标点靠拢等。中层神经网络继承于低层神经网络,实现了更为复杂的功能路径规划功能。高层神经网络通过监测所有智能体的状态序列,实现无人机之间的协同配合与协同避障。因为各神经网络需要监测较长时间内的状态序列变化,为了更稳定存储这种长期记忆,各神经网络的结构采用了循环神经网络结构。
本发明方法包括如下具体步骤:
本发明一种基于分层强化学习的多无人机路径协同规划方法,包括以下步骤:
步骤S01:提取多无人机中的每个无人机的特征向量(St,at),St为无人机状态向量,无人机每一时刻t所采取的动作at;所有无人机的特征向量组成特征空间(S,A),S代表无人机的状态向量;A代表无人机采取的动作;对所有的特征空间进行存储,形成记忆库ERB(Experience Replay Buffer);再依据多无人机中无人机的任务目标,对任务目标中需要执行的任务进行分层即分为多个子任务,每一个子任务由一个神经网络实现,形成由多个子任务构成的各神经网络,并初始化各神经网络参数,得到初始各神经网络;
步骤S02:对各神经网络进行关联,将步骤S01所获得的特征空间中所有的特征向量依次通过初始各神经网络,得到输出结果,记为Qeval(S,A,θ0),θ0是初始各神经网络的参数;再依据强化学习时序差分预测理论,计算目标输出值Qtar get(S,A,θ0),特征空间(S,A)与Qtar get(S,A,θ0)目标输出值一起,得到各神经网络的训练集{(S,A),Qtar get(S,A,θ0)};
步骤S03:最小化步骤S02中得到的输出结果与目标输出值Qtar get(S,A,θ0)之间的差距|Qeval(S,A,θ0)-Qtar get(S,A,θ0)|2,作为损失函数,利用梯度下降对进行各神经网络进行参数更新,不断更新θ0,当损失函数的值小于给定阈值时或达到指定的步数时,认为各神经网络训练完毕,得到收敛的各神经网络;
步骤S04:在上述步骤得到收敛的各神经网络后,控制多无人机进行协同路径规划,利用步骤S01所述方法,对各无人机所采集到的雷达观测信号进行量化,得到各自的特征空间;将各自特征空间中的特征向量依次通过步骤S03获得的收敛的各神经网络,得到各输出值Q;选取使Q最大的动作A,作为各无人机的控制信号,即实现多无人机协同路径规划,A=argmaxAQeval(S,A,θ0),θ0为初始各神经网络参数。
步骤S01中,提取多无人机中的每个无人机的特征向量(St,at)的过程如下:
获取多无人机中每个无人机的雷达观测信号,雷达观测信号包含无人机的位置信息和速度信息,对所述雷达观测信号进行模数转换得到数字化表示的无人机状态向量St=(x0,y0,z0,vx,vy,vz,d),其中t表示当前时刻,(x0,y0,z0)为此时无人机在三维空间中的坐标,(vx,vy,vz)为此时无人机的速度在三个方向上的分解,d为无人机与障碍物之间的距离;获取无人机每一时刻t所采取的动作at,与状态向量一起组成特征向量(St,at),所有的特征向量(St,at)组成特征空间(S,A)。
步骤S01中,为了实现一个复杂的功能,将多无人机协同路径规划的任务进行子任务分解,每一个子任务由一个神经网络实现;所述分解的子任务为:单机避障、单机寻找目标点、多个无人机共同进行路径规划;较低层神经网络实现较为简单的子任务,而较高层在简单子任务的基础上实现更复杂的功能。每一个子任务建立的神经网络包括:低层、中层和高层:低层为方向控制网络和目标锁定控制网络,实现单个无人机的避障与目标捕捉;中层为单智能体综合网络实现单机的路径规划;高层为多智能体协同控制网络,实现多个无人机的协同路径规划。
对于低层的方向控制网络、目标锁定控制网络,无人机每一时刻t所采取的动作at={向前、半左转、左转、半右转、右转、向后},动作向量用独热图表示,向前:(1,0,0,0,0,0);半左转:(0,1,0,0,0,0);左转:(0,0,1,0,0,0);半右转:(0,0,0,1,0,0);右转:(0,0,0,0,1,0);向后:(0,0,0,0,0,1);
对于中层的单智能体综合网络,无人机每一时刻t所采取的动作at={调用方向控制网络,调用目标锁定控制网络},动作向量用独热图表示,调用方向控制网络=(1,0),调用目标锁定控制网络=(0,1);
对于高层的多智能体协同控制网络,无人机每一时刻t所采取的动作at={调用某一个单智能体综合网络},动作向量用独热图表示,当第k个单智能体综合网络被选中时,该位置的值为1,其余为0,第一个被调用=(1,0,…,0)。
所述S01中,为了保留特征向量中所蕴含的无人机时空信息,各神经网络的结构采用循环神经网络的架构,各神经网络的输入层包含13个神经元,激活函数为ReLU;第一隐藏层40个神经元,激活函数为ReLU;第二隐藏层为150个神经元,激活函数为ReLU;输出层为1个神经元,激活函数为softmax函数。
步骤S01中,初始各神经网络的参数θ0=(weights,biaes),weights=0.1,biaes=0.01,weights是神经元的权重,biaes是神经元的偏置。
所述步骤S02中对各神经网络进行关联是各神经网络通过在当前时刻基于状态采取的动作在环境中得到的奖励rt进行关联,具体关联如下:
对于低层的方向控制网络、目标锁定控制网络,碰撞时rt=-1,其他时rt=0;抵达目标rt=0,驶离任务空域rt=-1;
对于中层的单智能体综合网络,在探测到无人机周围存在障碍时调用方向控制网络,或周围无障碍时调用目标锁定控制网络时rt=1,其余rt=-1;
对于高层的多智能体协同控制网络,当某一无人机周围探测到存在障碍时,调用该无人机的单智能体综合网络rt=1,其余rt=-1。
所述S02中,得到各神经网络的训练集{(S,A),Qtar get(S,A,θ0)}具体如下:
从步骤S01获得的Experience Replay Buffer中选取一部分特征向量{(St,at,)}∈(S,A),作为神经网络的输入,得到输出Qeval,将Qeval进行暂时存储;依据强化学习时序差分预测理论,计算其中θ0=(weights,biaes)代表θ0为初始各神经网络参数:权重与偏置;St与St+1分别代表当前时刻与下一时刻无人机的状态向量;at与at+1分别代表当前时刻和下一时刻无人机采取的动作;γ是一个大于0小于1的常数;rt代表当前时刻基于状态采取的动作在环境中得到的奖励;
将上述步骤计算得到的Qtar get(St,at,θ0),连同St,at组成{(St,at,Qtar get(St,at,θ0))},作为各神经网络训练的训练数据,每一批{(St,at,Qtar get(St,at,θ0))}训练数据共同组成了各神经网络训练集{(S,A),Qtar get(S,A,θ0)}。
所述步骤S03中,参数更新方法采用一种分步时间差的更新方法:每一步更新Qtar get(S,A,θ)中的参数θ0;每T个时间步长后更新Qeval(S,A,θ0)中的参数θ0。
本发明的一种基于分层强化学习的多无人机路径协同规划装置,如图4所示,包括传感器探测模块、MCU计算模块、RAM存储模块、神经网络专用芯片、信号转化模块、硬件控制模块;
传感器模块集成声波雷达、激光雷达、测速陀螺传感器设备,用于无人机环境信息的提取,无人机环境信息包含:坐标位置、速度大小与角度、距离障碍物远近与角度;
MCU计算模块,进行基础数学运算,用于对传感器模块所获得的数据信息进行量化,用于对神经网络专用芯片计算结果的再处理,通过搭载单片机、CPU微型计算芯片进行集成获得;
RAM存储模块,搭载存储芯片的模块,用于数据的存储与提取;
神经网络专用芯片,集成基本的神经网络运算算法,基本的神经网络运算算法包括梯度下降更新算法、激活函数运算法、张量求导;神经网络专用芯片通过搭载神经网络专用芯片而集成;
信号转化模块:用于对MCU计算模块所获得的数据进行转化,便于硬件控制模块识别数据信息,以产生正确的控制指令。主要有模拟和数字转化芯片集成;
硬件控制模块:用于接受来自信号转化模块模拟指令信号,转化为模拟信号进行无人机动作控制,为模拟/数字转化芯片与机械耦合硬件设备集成;
上述各个模块的实现过程为:
(1)传感器模块测得无人机所处的环境信息,为模拟信号;
(2)在MCU模块中进行数字/模拟转化,将模拟信号量化为数字信号便于后续运算;
(3)在RAM存储模块中将来自MCU模块的数据信息进行暂时存储,便于进行(4)的运算;
(4)在神经网络专用芯片中,读取RAM存储模块的数据,进行神经网络运算过程,直到运算结束;
(5)将(4)中获取的神经网络参数保存,对(1)、(2)处理后的数据进行神经网络运算,并选取最大值的动作,传输到信号转化模块中;
(6)对(5)所选择的的动作值进行模拟和数字转化,获得模拟信号,以进行无人机动作的控制;
(7)对(6)的模拟信号处理,输出到机械耦合设备,控制无人机的运行动作。
本发明与现有技术相比的优点在于:通过借鉴深度Q学习方法的更新步骤和深度神经网络的映射功能,实现了对海量状态的评估以及特定状态下的动作选择,消除了“维度灾难”,实现了智能体自我环境感知的功能。本装置中,通过构建高低层次网络,对特定的功能设置特定的网络,网络之间均在继承关系,大大加速了神经网络的训练速度,提高了神经网络的收敛效果,实现了智能体之间配合和协同等更为复杂的行为。
附图说明
图1为本发明方法的流程图;
图2为本发明方法的算法流程图;
图3为本发明方法低层和次高层网络连接关系图;
图4为本发明方法次高层与高层网络连接关系图;
图5为本发明装置各模块工作关系图。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明装置的结构示意图以及算法的详细步骤进行清除、完整的描述。
本发明提供一种基于分层强化学习的空中多无人机协同路径规划方法,考虑的问题是:对于单个无人机,能够找到一条最短和最安全的路径;除此,无人机之间满足一定的条件约束,这个条件约束一般是根据实际任务的需求来设置的,比如:物流机器人尽可能保持同一纵队飞行,将一批较多的货物运送至同一配送点。
为了消除经典强化学习Q学习方法中存在的“维度灾难”问题,使用神经网络存储计算参数,提高实时性,而神经网络训练的监督数据来自基于Q学习理论的迭代公式。
经典强化学习Q学习理论中,引入了状态动作价值函数Q(St,at),该函数的意义代表:在状态St时采取动作at价值的高低,价值越高,代表该动作越“明智”,能够在当前的环境动力学中获得较大的奖励;反之,代表该动作“不合理”,要尽可能避免。Q学习理论中动作价值函数的迭代公式源自时序差分强化学习算法,它不在考虑一个完整的状态序列,而是在每一步转移后都已进行一次价值函数的更新,当前时刻的动作价值函数可以通过下一个时刻动作价值函数计算出,直至Q函数收敛:Q(St,at)=R(St,at)+γmaxQ(St+1,at+1),其中St为t时刻智能体的状态;at为t时刻智能体采取的动作;R(St,at)为t时刻智能体在状态St时采取动作at得到的环境反馈;γ是衰减因子,为了减弱未来时刻对当前价值的影响,取值介于0~1之间。
所有可能经历的状态的Q值被计算和存储,当两次迭代中Q值变化小于设定的阈值,认为Q函数收敛。此时,对于一个智能体的控制问题转化成了公式:
a=argmaxa∈AQ(S,A)
可见,在经典强化学习问题中,每个状态的Q值被存储,并形成一个巨大的表格。当迭代计算结束后,就可以进行智能体的控制。但是实际问题中,状态往往巨大,存储难以达到要求,并且这种查表式的计算会使得实时性非常低下。利用深度神经网络的非线性性质,理论上可以实现任何的映射问题,本发明使用深度学习网络对Q表格进行拟合:
θ代表神经网络的参数θ=(weights,biaes),是需要通过监督数据的训练才可以获得的。
监督数据来自于Q学习迭代公式,Qtar get(S,A,θ)=rt+γmaxQeval(S,A,θ)。
神经网络的代价函数设置为最小化Qtar get(S,A,θ)与Qeval(S,A,θ)的最小均方误差:
cost function=min{|Qeval(S,A,θ)-Qtar get(S,A,θ)|2}
然后进行神经网络参数θ的更新。
可见,产生监督数据的神经网络参数和每次需要更新的神经网络参数是一样的,这会造成巨大的数据波动,为了减小方差,稳定神经网络的训练效果,采用时间步差更新方法,暂时冻结一个网络,只更新另一个网络:
Qeval(S,A,θ-)←Qeval(S,A,θ)
Qtar get(S,A,θ)←Qtar get(S,A,θ)
其中,θ为当前时刻神经网络的参数,θ-为上一时刻神经网络的参数。
交互数据{S,A}通过智能体与环境交互得出,具有很高的时空关联度,会影响基于统计4机器学习的神经网络的训练效果。为了减小这种相关性,采用了一个ExperienceReplay Buffer的暂时存储结构,每次计算所需要的{S,A},均从该结构中随机抽样得到。
另一方面,交互数据{S,A}的时空关联对模型的认知又是有益的,为了存储这种时序特征,将神经网络的结构设置为具有存贮记忆的循环神经网络结构(RNN)。同时,在协同方面,不同智能体之间的关联度具有高度重要意义,为了更长时间保存这种记忆特征,高层协同网络采用LSTM结构。
整个发明的方法可以用以下流程图1来说明:
步骤1:获取多无人机中每个无人机的雷达观测信号,对雷达观测信号(模拟信号)包含无人机的位置信息和速度信息通过模拟-数字转换器,得到数字化表示的无人机状态向量:St=(x0,y0,z0,vx,vy,vz,d),其中t表示当前时刻。其中位置信息包含了:此时无人机在三维空间中的坐标(x0,y0,z0),无人机与障碍物之间的距离d。速度信息包含了:此时无人机的速度在三个方向上的分解(vx,vy,vz)。位置信息与速度信息一起组成了状态向量St=(x0,y0,z0,vx,vy,vz,d)。同时记录无人机每一时刻t时所采取的动作at,与状态向量一起组成特征向量(St,at)。所有的特征向量(St,at)组成特征空间(S,A)。将特征空间(S,A)命名为记忆库ERB(Experience Replay Buffer)。
依据任务目标,建立各神经网络。为了实现一个复杂的功能,将多无人机协同路径规划的任务进行子任务分解,每一个子任务由一个神经网络实现。分解的子任务为:单机避障、单机寻找目标点、多个无人机共同进行路径规划。对每一个子任务建立一个神经网络:低层为方向控制网络、目标锁定控制网络,实现单个无人机的避障与目标捕捉;中层为单智能体综合网络实现单机的路径规划;高层为多智能体协同控制网络,实现多个无人机的协同路径规划。
在本发明中,各神经网络训练的监督数据基于强化学习时序差分预测理论:Qtar get(S,A,θ)=rt+γmaxQeval(S,A,θ),因此定义每个神经网络对应的动作空间是必要的。
对于低层方向控制网络、目标锁定控制网络,相关的动作at={向前、半左转、左转、半右转、右转、向后},动作向量用独热图表示,向前:(1,0,0,0,0,0);半左转:(0,1,0,0,0,0);左转:(0,0,1,0,0,0);半右转:(0,0,0,1,0,0);右转:(0,0,0,0,1,0);向后:(0,0,0,0,0,1)。
对于中层单智能体综合网络,相关的动作at={调用方向控制网络,调用目标锁定控制网络},动作向量用独热图表示,调用方向控制网络=(1,0),调用目标锁定控制网络=(0,1)。
对于高层多智能体协同控制网络,相关的动作at={调用某一个单智能体综合网络},动作向量用独热图表示,当第k个单智能体综合网络被选中时,该位置的值为1,其余为0,如第一个被调用=(1,0,…,0)。
初始化各神经网络参数,以获得初始各神经网络。为了更好利用交互序列中隐藏的时空关联信息,各神经网络的结构均采用了循环神经网络结构。各神经网络输入层包含13个神经元,激活函数为ReLU;第一隐藏层40个神经元,激活函数为ReLU;第二隐藏层为150个神经元,激活函数为ReLU;输出层为1个神经元,激活函数为softmax函数。各神经网络的神经元初始化:θ0=(weights,biaes)→weights=0.1,biaes=0.01,其中,weights是神经元的权重,biaes是神经元的偏置。
步骤2:对步骤S01中依据任务目标,建立的各神经网络进行关联。各神经网络的收敛过程依赖于环境动力学所提供的实时奖励rt,因此,实现各子任务的各神经网络之间,可以通过设计实时奖励rt进行关联。图3为低层神经网络与中层神经网络之间的连接关系:两个RNN结构的低层网络实现基础子任务:避障与目标捕捉,RNN结构神经网络用图中RNN-Dense符号表示;中层集成于低层,集成低层两个基础子任务,实现单个无人机路径规划,输出分别控制低层目标锁定控制网络或方向控制网络,在图中,用开关符号表示中层神经网络对低层神经网络的选择性控制;图4中,高层集成多个中层,实现多个无人机的协同路径规划,RNN结构神经网络同样用RNN-Dense符号表示,流线有向图表示高层神经网络对中层神经网络的控制作用和控制逻辑。
在步骤1建立的各神经网络的基础上,定义环境动力学实时奖励。
对于低层方向控制网络、目标锁定控制网络,碰撞时rt=-1,其他rt=0;抵达目标rt=0,驶离任务空域rt=-1。低层完成基础子任务:无人机避障与目标捕捉。
对于中层单智能体综合网络,在探测到无人机周围存在障碍时调用方向控制网络,或周围无障碍时调用目标锁定控制网络rt=1,其余rt=-1。中层集成低层两个基础子任务:避障与目标捕捉,实现无人机单机的路径规划。
对于高层多智能体协同控制网络,当某一无人机周围探测到存在障碍时,调用该无人机的单智能体综合网络rt=1,其余rt=-1。高层集成多个中层,实现多个无人机的路径规划。
为了缓解数据相关性对各神经网络训练的影响,以及各神经网络的计算负担每次从步骤1获得的Experience Replay Buffer中选取一部分特征向量{(St,at,)}∈(S,A),作为神经网络的输入,得到输出Qeval,将Qeval进行暂时存储。依据强化学习时序差分预测理论,计算其中θ0=(weights,biaes)代表了神经网络初始的网络参数:权重与偏置;St与St+1分别代表当前时刻与下一时刻无人机的状态向量;at与at+1分别代表当前时刻和下一时刻无人机采取的动作;γ是一个大于0小于1的常数;rt代表了当前时刻基于状态采取的动作在环境中得到的奖励。
将上述步骤计算得到的Qtar get(St,at,θ0),连同St,at组成{(St,at,Qtar get(St,at,θ0))},作为各神经网络训练的训练数据。每一批{(St,at,Qtar get(St,at,θ0))}训练数据共同组成了各神经网络训练集{(S,A),Qtar get(S,A,θ0)}。
步骤3:以|Qeval(S,A,θ0)-Qtar get(S,A,θ0)|2为损失函数, 其中θ0=(weights,biaes)代表了神经网络初始的网络参数:权重与偏置;S代表无人机的状态向量;A代表无人机采取的动作;γ是一个大于0小于1的常数;rt代表了当前时刻基于状态采取的动作在环境中得到的奖励,利用Adam梯度下降方法对进行各神经网络进行参数更新,不断更新θ0=(weights,biaes)。
统计机器学习的数学理论基础是基于最大似然估计的贝叶斯决策论,神经网络优良的表现效果与数据的独立同分布性密不可分。多无人机路径协同规划问题中,雷达传感器所探测到的状态向量、特征向量具有高度的时空关联。这种高相关性会削弱神经网络的训练效果。为了减少数据相关性对神经网络训练的影响,采用了一种分步时间差的更新方法:每一步更新Qtar get(S,A,θ)中的参数θ0;每T个时间步长后更新Qeval(S,A,θ0)中的参数θ0。
当损失函数的值小于给定阈值时或达到指定的步数时,认为各神经网络训练完毕,得到收敛的各神经网络。具体如下:
步骤3.1:从Experience Replay Buffer中随机抽取一小批训练数据放入神经网络中进行前向通过,获得Q-估计值:Qeval(S,A,θ0);
步骤3.2:利用Q学习Q值更新公式计算Q-目标:
Qtar get(S,A,θ0)=rt+γmaxAQeval(S,A,θ0)
步骤3.3:最小化|Qeval(S,A,θ0)-Qtar get(S,A,θ0)|2
步骤3.4:每一步更新Qtar get(S,A,θ0)中的参数θ0;每T个时间步长后更新
Qeval(S,A,θ0)中的参数θ0。
步骤4:利用步骤1中对各无人机所采集到的雷达观测信号量化方法,得到特征空间;将各自特征空间中的特征向量依次通过步骤3获得的收敛的各神经网络,得到各输出值Qeval;选取使Qeval最大的动作a,作为各无人机的控制信号,即可实现多无人机协同路径规划,即:A=argmaxAQeval(S,A,θ0),其中S为状态向量,A为动作空间,θ0为神经网络参数。
实现多无人机路径协同规划可通过多个模块的协调工作完成,如图5所示:来自环境的探测波信号通过无人机传感器模块处理,完成模拟信号成形;通过MCU计算模块完成对模拟信号的量化,将模拟信号转化为向量;在RAM存储模块中暂时存储,送入神经网络专用芯片模块完成神经网络的训练;根据神经网络专用芯片模块输出值,在MCU中选取与输出值对应的动作信号,传递给信号转化模块和硬件控制模块,完成无人机的控制。
Claims (10)
1.一种基于分层强化学习的多无人机路径协同规划方法,其特征在于,包括以下步骤:
步骤S01:提取多无人机中的每个无人机的特征向量(St,at),St为无人机状态向量,at为无人机每一时刻t所采取的动作;所有无人机的特征向量组成特征空间(S,A),S代表无人机的状态向量;A代表无人机采取的动作;对所有的特征空间进行存储,形成记忆库ERB(Experience Replay Buffer);再依据多无人机中无人机的任务目标,对任务目标中需要执行的任务进行分层即分为多个子任务,每一个子任务由一个神经网络实现,形成由多个子任务构成的各神经网络,并初始化各神经网络参数,得到初始各神经网络;
步骤S02:对各神经网络进行关联,将步骤S01所获得的特征空间中所有的特征向量依次通过初始各神经网络,得到输出结果,记为Qeval(S,A,θ0),θ0是初始各神经网络的参数;再依据强化学习时序差分预测理论,计算目标输出值Qtarget(S,A,θ0),特征空间(S,A)与Qtarget(S,A,θ0)目标输出值一起,得到各神经网络的训练集{(S,A),Qtarget(S,A,θ0)};
步骤S03:最小化步骤S02中得到的输出结果与目标输出值Qtarget(S,A,θ0)之间的差距|Qeval(S,A,θ0)-Qtarget(S,A,θ0)|2,作为损失函数,利用梯度下降对进行各神经网络进行参数更新,不断更新θ0,当损失函数的值小于给定阈值时或达到指定的步数时,认为各神经网络训练完毕,得到收敛的各神经网络;
步骤S04:在上述步骤得到收敛的各神经网络后,控制多无人机进行协同路径规划,利用步骤S01所述方法,对各无人机所采集到的雷达观测信号进行量化,得到各自的特征空间;将各自特征空间中的特征向量依次通过步骤S03获得的收敛的各神经网络,得到各输出值;选取使最大的动作,作为各无人机的控制信号,即实现多无人机协同路径规划。
2.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法,其特征在于:步骤S01中,提取多无人机中的每个无人机的特征向量(St,at)的过程如下:
获取多无人机中每个无人机的雷达观测信号,雷达观测信号包含无人机的位置信息和速度信息,对所述雷达观测信号进行模数转换得到数字化表示的无人机状态向量St=(x0,y0,z0,vx,uy,vz,d),其中t表示当前时刻,(x0,y0,z0)为此时无人机在三维空间中的坐标,(vx,uy,vz)为此时无人机的速度在三个方向上的分解,d为无人机与障碍物之间的距离;获取无人机每一时刻t所采取的动作at,与状态向量一起组成特征向量(St,at),所有的特征向量(St,at)组成特征空间(S,A)。
3.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法,其特征在于:步骤S01中,为了实现一个复杂的功能,将多无人机协同路径规划的任务进行子任务分解,每一个子任务由一个神经网络实现;所述分解的子任务为:单机避障、单机寻找目标点、多个无人机共同进行路径规划;较低层神经网络实现较为简单的子任务,而较高层在简单子任务的基础上实现更复杂的功能;每一个子任务建立的神经网络包括:低层、中层和高层:低层为方向控制网络和目标锁定控制网络,实现单个无人机的避障与目标捕捉;中层为单智能体综合网络实现单机的路径规划;高层为多智能体协同控制网络,实现多个无人机的协同路径规划。
4.根据权利要求3所述的基于分层强化学习的多无人机路径协同规划方法,其特征在于:对于低层的方向控制网络、目标锁定控制网络,无人机每一时刻t所采取的动作at={向前、半左转、左转、半右转、右转、向后},动作向量用独热图表示,向前:(1,0,0,0,0,0);半左转:(0,1,0,0,0,0);左转:(0,0,1,0,0,0);半右转:(0,0,0,1,0,0);右转:(0,0,0,0,1,0);向后:(0,0,0,0,0,1);
对于中层的单智能体综合网络,无人机每一时刻t所采取的动作at={调用方向控制网络,调用目标锁定控制网络},动作向量用独热图表示,调用方向控制网络=(1,0),调用目标锁定控制网络=(0,1);
对于高层的多智能体协同控制网络,无人机每一时刻t所采取的动作at={调用某一个单智能体综合网络},动作向量用独热图表示,当第k个单智能体综合网络被选中时,该位置的值为1,其余为0,第一个被调用=(1,0,...,0)。
5.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法,其特征在于:所述S01中,为了保留特征向量中所蕴含的无人机时空信息,各神经网络的结构采用循环神经网络的架构,各神经网络的输入层包含13个神经元,激活函数为ReLU;第一隐藏层40个神经元,激活函数为ReLU;第二隐藏层为150个神经元,激活函数为ReLU;输出层为1个神经元,激活函数为softmax函数。
6.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法,其特征在于:步骤S01中,初始各神经网络的参数θ0=(weights,biaes),weights=0.1,biaes=0.01,weights是神经元的权重,biaes是神经元的偏置。
7.根据权利要求3所述的基于分层强化学习的多无人机路径协同规划方法,其特征在于:所述步骤S02中对各神经网络进行关联是各神经网络通过在当前时刻基于状态采取的动作在环境中得到的奖励rt进行关联,具体关联如下:
对于低层的方向控制网络、目标锁定控制网络,碰撞时rt=-1,其他时rt=0;抵达目标rt=0,驶离任务空域rt=-1;
对于中层的单智能体综合网络,在探测到无人机周围存在障碍时调用方向控制网络,或周围无障碍时调用目标锁定控制网络时rt=1,其余rt=-1;
对于高层的多智能体协同控制网络,当某一无人机周围探测到存在障碍时,调用该无人机的单智能体综合网络rt=1,其余rt=-1。
8.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法,其特征在于:所述S02中,得到各神经网络的训练集{(S,A),Qtarget(S,A,θ0)}具体如下:
从步骤S01获得的Experience Replay Buffer中选取一部分特征向量{(St,at,)}∈(S,A),作为神经网络的输入,得到输出Qeval,将Qeval进行暂时存储;依据强化学习时序差分预测理论,计算Qtarget(St,at,θ0)=rt+γmaxat+1Qeval(St+1,at+1,θ0),其中θ0=(weights,biaes)代表θ0为初始各神经网络参数:权重与偏置;St与St+1分别代表当前时刻与下一时刻无人机的状态向量;at与at+1分别代表当前时刻和下一时刻无人机采取的动作;γ是一个大于0小于1的常数;rt代表当前时刻基于状态采取的动作在环境中得到的奖励;
将上述步骤计算得到的Qtarget(St,at,θ0),连同St,at组成{(St,at,Qtarget(St,at,θ0))},作为各神经网络训练的训练数据,每一批{(St,at,Qtarget(St,at,θ0))}训练数据共同组成了各神经网络训练集{(S,A),Qtarget(S,A,θ0)}。
9.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法,其特征在于:所述步骤S03中,参数更新方法采用一种分步时间差的更新方法:每一步更新Qtarget(S,A,θ)中的参数θ0;每T个时间步长后更新Qeval(S,A,θ0)中的参数θ0。
10.一种基于分层强化学习的多无人机路径协同规划装置,其特征在于:包括传感器探测模块、MCU计算模块、RAM存储模块、神经网络专用芯片、信号转化模块、硬件控制模块;
传感器模块集成声波雷达、激光雷达、测速陀螺传感器设备,用于无人机环境信息的提取,无人机环境信息包含:坐标位置、速度大小与角度、距离障碍物远近与角度;
MCU计算模块,进行基础数学运算,用于对传感器模块所获得的数据信息进行量化,用于对神经网络专用芯片计算结果的再处理,通过搭载单片机、CPU微型计算芯片进行集成获得;
RAM存储模块,搭载存储芯片的模块,用于数据的存储与提取;
神经网络专用芯片,集成基本的神经网络运算算法,基本的神经网络运算算法包括梯度下降更新算法、激活函数运算法、张量求导;神经网络专用芯片通过搭载神经网络专用芯片而集成;
信号转化模块:用于对MCU计算模块所获得的数据进行转化,便于硬件控制模块识别数据信息,以产生正确的控制指令。主要有模拟和数字转化芯片集成;
硬件控制模块:用于接受来自信号转化模块模拟指令信号,转化为模拟信号进行无人机动作控制,为模拟/数字转化芯片与机械耦合硬件设备集成;
上述各个模块的实现过程为:
(1)传感器模块测得无人机所处的环境信息,为模拟信号;
(2)在MCU模块中进行数字/模拟转化,将模拟信号量化为数字信号便于后续运算;
(3)在RAM存储模块中将来自MCU模块的数据信息进行暂时存储,便于进行(4)的运算;
(4)在神经网络专用芯片中,读取RAM存储模块的数据,进行神经网络运算过程,直到运算结束;
(5)将步骤(4)中获取的神经网络参数保存,对步骤(1)、(2)处理后的数据进行神经网络运算,并选取最大值的动作,传输到信号转化模块中;
(6)对步骤(5)所选择的的动作值进行模拟和数字转化,获得模拟信号,以进行无人机动作的控制;
(7)对步骤(6)的模拟信号处理,输出到机械耦合设备,控制无人机的运行动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910268774.5A CN109992000B (zh) | 2019-04-04 | 2019-04-04 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910268774.5A CN109992000B (zh) | 2019-04-04 | 2019-04-04 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109992000A true CN109992000A (zh) | 2019-07-09 |
CN109992000B CN109992000B (zh) | 2020-07-03 |
Family
ID=67131008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910268774.5A Expired - Fee Related CN109992000B (zh) | 2019-04-04 | 2019-04-04 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109992000B (zh) |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348418A (zh) * | 2019-07-17 | 2019-10-18 | 上海商汤智能科技有限公司 | 目标跟踪方法及装置、智能移动设备和存储介质 |
CN110412547A (zh) * | 2019-07-24 | 2019-11-05 | 中国电子科技集团公司第三十六研究所 | 基于旋翼无人机载设备和地面设备的目标信号识别系统 |
CN110472738A (zh) * | 2019-08-16 | 2019-11-19 | 北京理工大学 | 一种基于深度强化学习的无人艇实时避障算法 |
CN110531617A (zh) * | 2019-07-30 | 2019-12-03 | 北京邮电大学 | 多无人机3d悬停位置联合优化方法、装置和无人机基站 |
CN110765405A (zh) * | 2019-09-26 | 2020-02-07 | 西安石油大学 | 基于优先程度的日程规划方法 |
CN110879610A (zh) * | 2019-10-24 | 2020-03-13 | 北京航空航天大学 | 太阳能无人机自主寻优航迹规划的强化学习方法 |
CN110958680A (zh) * | 2019-12-09 | 2020-04-03 | 长江师范学院 | 面向能量效率的无人机群多智能体深度强化学习优化方法 |
CN110968102A (zh) * | 2019-12-27 | 2020-04-07 | 东南大学 | 一种基于深度强化学习的多agent避碰方法 |
CN110989690A (zh) * | 2019-12-24 | 2020-04-10 | 北京航空航天大学 | 一种基于诱导信息的多无人机寻路方法 |
CN111026110A (zh) * | 2019-11-20 | 2020-04-17 | 北京理工大学 | 面向含软、硬约束线性时序逻辑的不确定动作规划方法 |
CN111026147A (zh) * | 2019-12-25 | 2020-04-17 | 北京航空航天大学 | 基于深度强化学习的零超调量无人机位置控制方法及装置 |
CN111158401A (zh) * | 2020-01-20 | 2020-05-15 | 北京理工大学 | 一种分布式鼓励时空数据探索的无人机路径规划系统及方法 |
CN111178743A (zh) * | 2019-12-25 | 2020-05-19 | 中国人民解放军军事科学院国防科技创新研究院 | 一种无人机群自主协同观测与协同作业的方法 |
CN111260031A (zh) * | 2020-01-14 | 2020-06-09 | 西北工业大学 | 一种基于深度强化学习的无人机集群目标防卫方法 |
CN111857184A (zh) * | 2020-07-31 | 2020-10-30 | 中国人民解放军国防科技大学 | 基于深度强化学习的固定翼无人机群集控制避碰方法及装置 |
CN111897316A (zh) * | 2020-06-22 | 2020-11-06 | 北京航空航天大学 | 一种场景快变条件下的多飞行器自主决策方法 |
CN112034888A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 一种固定翼无人机自主控制协作策略训练方法 |
CN112034887A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 |
CN112114594A (zh) * | 2020-10-13 | 2020-12-22 | 湖南大学 | 一种基于视觉与性能约束的多无人机协同控制方法及系统 |
CN112148008A (zh) * | 2020-09-18 | 2020-12-29 | 中国航空无线电电子研究所 | 一种基于深度强化学习的实时无人机路径预测方法 |
CN112162564A (zh) * | 2020-09-25 | 2021-01-01 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
CN112198892A (zh) * | 2020-05-13 | 2021-01-08 | 北京理工大学 | 一种多无人机智能协同突防对抗方法 |
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
CN112327923A (zh) * | 2020-11-19 | 2021-02-05 | 中国地质大学(武汉) | 一种多无人机协同路径规划方法 |
CN112367639A (zh) * | 2020-10-09 | 2021-02-12 | 武汉大学 | 基于北斗卫星授时的无人机集群自组网通信方法及系统 |
CN112437690A (zh) * | 2020-04-02 | 2021-03-02 | 支付宝(杭州)信息技术有限公司 | 确定执行设备的动作选择方针 |
CN112561227A (zh) * | 2020-10-26 | 2021-03-26 | 南京集新萃信息科技有限公司 | 一种基于递归神经网络的多机器人协同方法及系统 |
CN112580801A (zh) * | 2020-12-09 | 2021-03-30 | 广州优策科技有限公司 | 一种强化学习训练方法及基于强化学习的决策方法 |
CN112925307A (zh) * | 2021-01-20 | 2021-06-08 | 中国科学院重庆绿色智能技术研究院 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
CN113139652A (zh) * | 2020-01-17 | 2021-07-20 | 百度(美国)有限责任公司 | 用于自动车辆的神经任务规划器 |
CN113190039A (zh) * | 2021-04-27 | 2021-07-30 | 大连理工大学 | 一种基于分层深度强化学习的无人机采集路径规划方法 |
CN113392584A (zh) * | 2021-06-08 | 2021-09-14 | 华南理工大学 | 基于深度强化学习和方向估计的视觉导航方法 |
WO2021208808A1 (en) * | 2020-04-14 | 2021-10-21 | International Business Machines Corporation | Cooperative neural networks with spatial containment constraints |
CN113641192A (zh) * | 2021-07-06 | 2021-11-12 | 暨南大学 | 一种基于强化学习的无人机群智感知任务的路径规划方法 |
CN113727278A (zh) * | 2020-05-25 | 2021-11-30 | 中国移动通信有限公司研究院 | 一种路径规划方法、接入网设备及飞行控制设备 |
CN113759929A (zh) * | 2021-09-22 | 2021-12-07 | 西安航天动力研究所 | 基于强化学习和模型预测控制的多智能体路径规划方法 |
US11222201B2 (en) | 2020-04-14 | 2022-01-11 | International Business Machines Corporation | Vision-based cell structure recognition using hierarchical neural networks |
CN114020013A (zh) * | 2021-10-26 | 2022-02-08 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度强化学习的无人机编队避撞方法 |
CN114384931A (zh) * | 2021-12-23 | 2022-04-22 | 同济大学 | 一种基于策略梯度的无人机多目标最优控制方法和设备 |
CN114675975A (zh) * | 2022-05-24 | 2022-06-28 | 新华三人工智能科技有限公司 | 一种基于强化学习的作业调度方法、装置及设备 |
CN115183419A (zh) * | 2022-06-07 | 2022-10-14 | 清华大学 | 基于模仿学习和强化学习的暖通空调负荷优化控制方法 |
CN115268494A (zh) * | 2022-07-26 | 2022-11-01 | 江苏科技大学 | 基于分层强化学习的无人机路径规划方法 |
CN115183419B (zh) * | 2022-06-07 | 2024-07-12 | 清华大学 | 基于模仿学习和强化学习的暖通空调负荷优化控制方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0505236A2 (fr) * | 1991-03-18 | 1992-09-23 | Thomson-Csf | Réseaux neuronaux structurés pour le contrôle de systèmes complexes |
CN106292709A (zh) * | 2016-10-13 | 2017-01-04 | 北京航空航天大学 | 多无人飞行器避撞控制方法和装置 |
CN106595671A (zh) * | 2017-02-22 | 2017-04-26 | 南方科技大学 | 一种基于强化学习的无人机路径规划方法和装置 |
CN108027897A (zh) * | 2015-07-24 | 2018-05-11 | 渊慧科技有限公司 | 利用深度强化学习的连续控制 |
WO2018117872A1 (en) * | 2016-12-25 | 2018-06-28 | Baomar Haitham | The intelligent autopilot system |
CN108731684A (zh) * | 2018-05-07 | 2018-11-02 | 西安电子科技大学 | 一种多无人机协同区域监视的航路规划方法 |
CN109032168A (zh) * | 2018-05-07 | 2018-12-18 | 西安电子科技大学 | 一种基于dqn的多无人机协同区域监视的航路规划方法 |
CN109059931A (zh) * | 2018-09-05 | 2018-12-21 | 北京航空航天大学 | 一种基于多智能体强化学习的路径规划方法 |
CN109443366A (zh) * | 2018-12-20 | 2019-03-08 | 北京航空航天大学 | 一种基于改进q学习算法的无人机群路径规划方法 |
-
2019
- 2019-04-04 CN CN201910268774.5A patent/CN109992000B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0505236A2 (fr) * | 1991-03-18 | 1992-09-23 | Thomson-Csf | Réseaux neuronaux structurés pour le contrôle de systèmes complexes |
CN108027897A (zh) * | 2015-07-24 | 2018-05-11 | 渊慧科技有限公司 | 利用深度强化学习的连续控制 |
CN106292709A (zh) * | 2016-10-13 | 2017-01-04 | 北京航空航天大学 | 多无人飞行器避撞控制方法和装置 |
WO2018117872A1 (en) * | 2016-12-25 | 2018-06-28 | Baomar Haitham | The intelligent autopilot system |
CN106595671A (zh) * | 2017-02-22 | 2017-04-26 | 南方科技大学 | 一种基于强化学习的无人机路径规划方法和装置 |
CN108731684A (zh) * | 2018-05-07 | 2018-11-02 | 西安电子科技大学 | 一种多无人机协同区域监视的航路规划方法 |
CN109032168A (zh) * | 2018-05-07 | 2018-12-18 | 西安电子科技大学 | 一种基于dqn的多无人机协同区域监视的航路规划方法 |
CN109059931A (zh) * | 2018-09-05 | 2018-12-21 | 北京航空航天大学 | 一种基于多智能体强化学习的路径规划方法 |
CN109443366A (zh) * | 2018-12-20 | 2019-03-08 | 北京航空航天大学 | 一种基于改进q学习算法的无人机群路径规划方法 |
Non-Patent Citations (4)
Title |
---|
DIETTERICHG T,等: "Hierarchical reinforcement learning with the MAX Q value function decomposition", 《JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH》 * |
WENHAO DING,等: "Hierarchical Reinforcement Learning Framework towards Multi-agent Navigation", 《ARXIV:1807.05424V2》 * |
李东华,等: "多智能体强化学习飞行路径规划算法", 《电光与控制》 * |
沈晶,等: "未知动态环境中基于分层强化学习的移动机器人路径规划", 《机器人》 * |
Cited By (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348418A (zh) * | 2019-07-17 | 2019-10-18 | 上海商汤智能科技有限公司 | 目标跟踪方法及装置、智能移动设备和存储介质 |
CN110412547A (zh) * | 2019-07-24 | 2019-11-05 | 中国电子科技集团公司第三十六研究所 | 基于旋翼无人机载设备和地面设备的目标信号识别系统 |
CN110531617A (zh) * | 2019-07-30 | 2019-12-03 | 北京邮电大学 | 多无人机3d悬停位置联合优化方法、装置和无人机基站 |
CN110472738A (zh) * | 2019-08-16 | 2019-11-19 | 北京理工大学 | 一种基于深度强化学习的无人艇实时避障算法 |
CN110765405A (zh) * | 2019-09-26 | 2020-02-07 | 西安石油大学 | 基于优先程度的日程规划方法 |
CN110879610A (zh) * | 2019-10-24 | 2020-03-13 | 北京航空航天大学 | 太阳能无人机自主寻优航迹规划的强化学习方法 |
CN111026110B (zh) * | 2019-11-20 | 2021-04-30 | 北京理工大学 | 面向含软、硬约束线性时序逻辑的不确定动作规划方法 |
CN111026110A (zh) * | 2019-11-20 | 2020-04-17 | 北京理工大学 | 面向含软、硬约束线性时序逻辑的不确定动作规划方法 |
CN110958680A (zh) * | 2019-12-09 | 2020-04-03 | 长江师范学院 | 面向能量效率的无人机群多智能体深度强化学习优化方法 |
CN110958680B (zh) * | 2019-12-09 | 2022-09-13 | 长江师范学院 | 面向能量效率的无人机群多智能体深度强化学习优化方法 |
CN110989690A (zh) * | 2019-12-24 | 2020-04-10 | 北京航空航天大学 | 一种基于诱导信息的多无人机寻路方法 |
CN111026147B (zh) * | 2019-12-25 | 2021-01-08 | 北京航空航天大学 | 基于深度强化学习的零超调量无人机位置控制方法及装置 |
CN111178743A (zh) * | 2019-12-25 | 2020-05-19 | 中国人民解放军军事科学院国防科技创新研究院 | 一种无人机群自主协同观测与协同作业的方法 |
CN111026147A (zh) * | 2019-12-25 | 2020-04-17 | 北京航空航天大学 | 基于深度强化学习的零超调量无人机位置控制方法及装置 |
CN110968102A (zh) * | 2019-12-27 | 2020-04-07 | 东南大学 | 一种基于深度强化学习的多agent避碰方法 |
CN110968102B (zh) * | 2019-12-27 | 2022-08-26 | 东南大学 | 一种基于深度强化学习的多agent避碰方法 |
CN111260031A (zh) * | 2020-01-14 | 2020-06-09 | 西北工业大学 | 一种基于深度强化学习的无人机集群目标防卫方法 |
CN111260031B (zh) * | 2020-01-14 | 2022-03-01 | 西北工业大学 | 一种基于深度强化学习的无人机集群目标防卫方法 |
CN113139652A (zh) * | 2020-01-17 | 2021-07-20 | 百度(美国)有限责任公司 | 用于自动车辆的神经任务规划器 |
CN111158401A (zh) * | 2020-01-20 | 2020-05-15 | 北京理工大学 | 一种分布式鼓励时空数据探索的无人机路径规划系统及方法 |
CN111158401B (zh) * | 2020-01-20 | 2021-08-27 | 北京理工大学 | 一种分布式鼓励时空数据探索的无人机路径规划系统及方法 |
CN112437690B (zh) * | 2020-04-02 | 2024-07-12 | 支付宝(杭州)信息技术有限公司 | 确定执行设备的动作选择方针的方法和装置 |
CN112437690A (zh) * | 2020-04-02 | 2021-03-02 | 支付宝(杭州)信息技术有限公司 | 确定执行设备的动作选择方针 |
GB2610098A (en) * | 2020-04-14 | 2023-02-22 | Ibm | Cooperative neural networks with spatial containment constraints |
US11734939B2 (en) | 2020-04-14 | 2023-08-22 | International Business Machines Corporation | Vision-based cell structure recognition using hierarchical neural networks and cell boundaries to structure clustering |
US11734576B2 (en) | 2020-04-14 | 2023-08-22 | International Business Machines Corporation | Cooperative neural networks with spatial containment constraints |
US11222201B2 (en) | 2020-04-14 | 2022-01-11 | International Business Machines Corporation | Vision-based cell structure recognition using hierarchical neural networks |
WO2021208808A1 (en) * | 2020-04-14 | 2021-10-21 | International Business Machines Corporation | Cooperative neural networks with spatial containment constraints |
CN112198892A (zh) * | 2020-05-13 | 2021-01-08 | 北京理工大学 | 一种多无人机智能协同突防对抗方法 |
CN113727278B (zh) * | 2020-05-25 | 2023-05-09 | 中国移动通信有限公司研究院 | 一种路径规划方法、接入网设备及飞行控制设备 |
CN113727278A (zh) * | 2020-05-25 | 2021-11-30 | 中国移动通信有限公司研究院 | 一种路径规划方法、接入网设备及飞行控制设备 |
CN111897316A (zh) * | 2020-06-22 | 2020-11-06 | 北京航空航天大学 | 一种场景快变条件下的多飞行器自主决策方法 |
CN111897316B (zh) * | 2020-06-22 | 2021-05-14 | 北京航空航天大学 | 一种场景快变条件下的多飞行器自主决策方法 |
CN111857184A (zh) * | 2020-07-31 | 2020-10-30 | 中国人民解放军国防科技大学 | 基于深度强化学习的固定翼无人机群集控制避碰方法及装置 |
CN112034887A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 |
CN112034888B (zh) * | 2020-09-10 | 2021-07-30 | 南京大学 | 一种固定翼无人机自主控制协作策略训练方法 |
CN112034888A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 一种固定翼无人机自主控制协作策略训练方法 |
CN112148008A (zh) * | 2020-09-18 | 2020-12-29 | 中国航空无线电电子研究所 | 一种基于深度强化学习的实时无人机路径预测方法 |
CN112162564B (zh) * | 2020-09-25 | 2021-09-28 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
CN112162564A (zh) * | 2020-09-25 | 2021-01-01 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
CN112367639A (zh) * | 2020-10-09 | 2021-02-12 | 武汉大学 | 基于北斗卫星授时的无人机集群自组网通信方法及系统 |
CN112367639B (zh) * | 2020-10-09 | 2022-02-15 | 武汉大学 | 基于北斗卫星授时的无人机集群自组网通信方法及系统 |
CN112114594B (zh) * | 2020-10-13 | 2021-07-16 | 湖南大学 | 一种基于视觉与性能约束的多无人机协同控制方法及系统 |
CN112114594A (zh) * | 2020-10-13 | 2020-12-22 | 湖南大学 | 一种基于视觉与性能约束的多无人机协同控制方法及系统 |
CN112561227A (zh) * | 2020-10-26 | 2021-03-26 | 南京集新萃信息科技有限公司 | 一种基于递归神经网络的多机器人协同方法及系统 |
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
CN112327923A (zh) * | 2020-11-19 | 2021-02-05 | 中国地质大学(武汉) | 一种多无人机协同路径规划方法 |
CN112327923B (zh) * | 2020-11-19 | 2022-04-01 | 中国地质大学(武汉) | 一种多无人机协同路径规划方法 |
CN112580801A (zh) * | 2020-12-09 | 2021-03-30 | 广州优策科技有限公司 | 一种强化学习训练方法及基于强化学习的决策方法 |
CN112925307A (zh) * | 2021-01-20 | 2021-06-08 | 中国科学院重庆绿色智能技术研究院 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
CN112925307B (zh) * | 2021-01-20 | 2023-03-24 | 中国科学院重庆绿色智能技术研究院 | 一种用于智能仓储机器人系统的分布式多机器人路径规划方法 |
CN113190039B (zh) * | 2021-04-27 | 2024-04-16 | 大连理工大学 | 一种基于分层深度强化学习的无人机采集路径规划方法 |
CN113190039A (zh) * | 2021-04-27 | 2021-07-30 | 大连理工大学 | 一种基于分层深度强化学习的无人机采集路径规划方法 |
CN113392584B (zh) * | 2021-06-08 | 2022-12-16 | 华南理工大学 | 基于深度强化学习和方向估计的视觉导航方法 |
CN113392584A (zh) * | 2021-06-08 | 2021-09-14 | 华南理工大学 | 基于深度强化学习和方向估计的视觉导航方法 |
CN113641192A (zh) * | 2021-07-06 | 2021-11-12 | 暨南大学 | 一种基于强化学习的无人机群智感知任务的路径规划方法 |
CN113641192B (zh) * | 2021-07-06 | 2023-07-18 | 暨南大学 | 一种基于强化学习的无人机群智感知任务的路径规划方法 |
CN113759929A (zh) * | 2021-09-22 | 2021-12-07 | 西安航天动力研究所 | 基于强化学习和模型预测控制的多智能体路径规划方法 |
CN113759929B (zh) * | 2021-09-22 | 2022-08-23 | 西安航天动力研究所 | 基于强化学习和模型预测控制的多智能体路径规划方法 |
CN114020013A (zh) * | 2021-10-26 | 2022-02-08 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度强化学习的无人机编队避撞方法 |
CN114020013B (zh) * | 2021-10-26 | 2024-03-15 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度强化学习的无人机编队避撞方法 |
CN114384931B (zh) * | 2021-12-23 | 2023-08-29 | 同济大学 | 一种基于策略梯度的无人机多目标最优控制方法和设备 |
CN114384931A (zh) * | 2021-12-23 | 2022-04-22 | 同济大学 | 一种基于策略梯度的无人机多目标最优控制方法和设备 |
CN114675975A (zh) * | 2022-05-24 | 2022-06-28 | 新华三人工智能科技有限公司 | 一种基于强化学习的作业调度方法、装置及设备 |
CN115183419A (zh) * | 2022-06-07 | 2022-10-14 | 清华大学 | 基于模仿学习和强化学习的暖通空调负荷优化控制方法 |
CN115183419B (zh) * | 2022-06-07 | 2024-07-12 | 清华大学 | 基于模仿学习和强化学习的暖通空调负荷优化控制方法 |
CN115268494A (zh) * | 2022-07-26 | 2022-11-01 | 江苏科技大学 | 基于分层强化学习的无人机路径规划方法 |
CN115268494B (zh) * | 2022-07-26 | 2024-05-28 | 江苏科技大学 | 基于分层强化学习的无人机路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109992000B (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992000A (zh) | 一种基于分层强化学习的多无人机路径协同规划方法及装置 | |
Yao et al. | Path planning method with improved artificial potential field—a reinforcement learning perspective | |
Wu et al. | UAV autonomous target search based on deep reinforcement learning in complex disaster scene | |
Li et al. | Parallel learning: A perspective and a framework | |
Novati et al. | Controlled gliding and perching through deep-reinforcement-learning | |
Liu et al. | Parallel reinforcement learning: A framework and case study | |
CN109870162A (zh) | 一种基于竞争深度学习网络的无人机飞行路径规划方法 | |
CN110794842A (zh) | 基于势场的强化学习路径规划算法 | |
Zhang et al. | Collective behavior coordination with predictive mechanisms | |
Ma et al. | Multi-robot target encirclement control with collision avoidance via deep reinforcement learning | |
CN109872346A (zh) | 一种支持循环神经网络对抗学习的目标跟踪方法 | |
CN107967513B (zh) | 多机器人强化学习协同搜索方法及系统 | |
CN106570522A (zh) | 物体识别模型的建立方法及物体识别方法 | |
CN114741886B (zh) | 一种基于贡献度评价的无人机集群多任务训练方法及系统 | |
CN111240356A (zh) | 一种基于深度强化学习的无人机集群会合方法 | |
CN114510012A (zh) | 一种基于元动作序列强化学习的无人集群演进系统及方法 | |
Konda et al. | Decentralized function approximated q-learning in multi-robot systems for predator avoidance | |
Lan et al. | Path planning for underwater gliders in time-varying ocean current using deep reinforcement learning | |
Wang et al. | Research on pursuit-evasion games with multiple heterogeneous pursuers and a high speed evader | |
Wang et al. | Human-drone collaborative spatial crowdsourcing by memory-augmented and distributed multi-agent deep reinforcement learning | |
Wang et al. | Multi-agent deep reinforcement learning based on maximum entropy | |
Huang et al. | A deep reinforcement learning approach to preserve connectivity for multi-robot systems | |
Liu et al. | Knowledge transfer in multi-agent reinforcement learning with incremental number of agents | |
Zhang et al. | Peer Incentive Reinforcement Learning for Cooperative Multiagent Games | |
CN108981712A (zh) | 机器人巡逻方法及机器人 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200703 |
|
CF01 | Termination of patent right due to non-payment of annual fee |