CN109992000A

CN109992000A - 一种基于分层强化学习的多无人机路径协同规划方法及装置

Info

Publication number: CN109992000A
Application number: CN201910268774.5A
Authority: CN
Inventors: 曹先彬; 杜文博; 朱熙; 郭通; 李宇萌
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-07-09
Anticipated expiration: 2039-04-04
Also published as: CN109992000B

Abstract

本发明一种一种基于分层强化学习的多无人机路径协同规划方法及装置，提取多无人机中的每个无人机的特征空间；再依据多无人机中无人机的任务目标，对任务目标中需要执行的任务进行分层即分为多个子任务，每一个子任务由一个神经网络实现，形成由多个子任务构成的各神经网络，并初始化各神经网络参数，得到初始各神经网络；对各神经网络进行关联；输出结果与目标输出之间的差距作为损失函数，利用梯度下降对进行各神经网络进行参数更新，当损失函数的值小于给定阈值时或达到指定的步数时，各神经网络训练完毕；将各自特征空间中的特征向量依次通过步各神经网络，得到各输出值；选取使最大的动作，作为各无人机的控制信号，即实现多无人机协同路径规划。

Description

一种基于分层强化学习的多无人机路径协同规划方法及装置

技术领域

本发明属于飞行器技术领域，涉及一种基于分层强化学习的多飞行器避障、协同路径规划、编队控制等复杂行为控制，特别是一种基于分层强化学习的多无人机路径协同规划方法及装置

背景技术

随着计算力水平和人工智能领域的长足进步，多旋翼无人机可以执行的任务难度越来越高，可以执行的任务种类越来越复杂，为人们的生活和社会生产力的流动带来了便捷和促进。多无人机任务协同是当前多智能体控制方法研究中的热点和难点，它涉及单智能体的路径规划与避障、多智能体之间的感知和动作调控。在多无人机任务协同中，每架无人机既要有一个从起点到终点的路径选择，它的约束通常是路径长度较短、能够合理避障；除此，无人机之间需要有感知和配合，以协同完成更为复杂的任务，例如：农用植保飞行器需要协同规划路径，以最大范围覆盖农业工作区；物流飞行器针对配送点的不同，合理分配任务，以最短的时间将包裹运送至顾客手中。

考虑到低空飞行器的飞行环境较为复杂，存在静态障碍、动态障碍以及类似风、特征未知的威胁源等随机因素的干扰，除此，飞行器本身的续航能力、机动性、激光雷达探测范围等还会产生约束，多无人机的任务协同很难用几个特定的算法进行控制。

国内外研究学者针对多智能体任务协同问题做了深入和精彩的工作。在单智能体的路径规划方面，传统的以A*算法为代表的图搜索算法，需要对智能体的环境进行建模，进行栅格化处理，这要求智能体的环境是已知的且相对较确定；除此，当环境较复杂时，这类算法的计算速度非常缓慢，不利于实时的任务规划。这些约束大大限制了这类算法在实际中的应用。以粒子群和蚁群算法为代表的仿生学算法，在进行路径规划时只能找到一个较优解，当环境变化时，很容易陷入局部最优。在多智能体协同研究方面，多使用约束函数对目标函数进行设计，再使用遗传算法等对目标函数进行优化。这类方法可解释性强，设计层次分明，但是可迁移性差，对一个新的场景需要重新进行目标函数的设计和计算；而且依赖遗传算法的优化方法通常速度慢、收敛性差。

随着人工智能技术的进步，近年来基于深度神经网络和深度强化学习的智能体控制方法进入大众视野。强化学习是机器学习的重要分支之一，它通过对环境建模，对智能体的每一个动作进行反馈，通过设置累积奖励的目标函数，最大化一个智能体在当前状态所能取得的未来期望收获，来辅助智能体在每一个状态采取更明智的行为和动作。深度强化学习是一类利用神经网络优化智能体策略的算法，它通过神经网络存储参数的功能，消除了传统强化学习算法，诸如：时序差分、现实策略差分算法中的维度灾难问题，为实时计算提供了思路。2015年，DeepMind团队发表在美国《自然》杂志上的文章，首次展示了利用深度神经网络驱动的强化学习算法在完成Atari等街机游戏任务上，取得了超越人类专家级水平的成绩。2018年，DeepMind团队提出的“多智能体演员-评论家”模型，让多智能体之间的复杂行为调控成为了可能。

深度学习网络的非线性和不可解释性，使得许多具有映射关系的问题，都可以通过一个网络进行计算。理论而言，多无人机任务协同任务的计算可以通过一个非常深的网络进行计算和存储，但是这个深度网络的收敛性难以保证；况且，单一的神经网络鲁棒性很差，泛化能力弱，环境的轻微变化都有可能导致网络的崩溃和发散。但目前较为成功和成熟的深度学习框架都是通过一个核心的深度网络，对所有智能体的状态动作、策略行为进行计算。虽然A3C等算法等引入了多个子网络对主网络进行并行计算，加快了算法收敛的速度，但是其本质上，仍然是只有一个网络在计算所有的状态和动作空间。

现有的利用强化学习算法进行无人机自主路径规划的技术中，最明显的缺点就是环境的轻微改变就会给神经网络带来巨大的波动，所以现有的方法无法适应复杂高动态的环境，网络收敛性以及泛化能力能很弱，所以实际工程中很难运用深度学习进行多无人机协同路径规划这种复杂任务。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于分层强化学习的空中多无人机任务协同方法及装置，较传统路径规划算法而言，具有不依赖完全信息的自主认知能力；相比于深度学习驱动的路径规划算法而言，由于采取了层次性网络体系架构，因此训练速度快、鲁棒性高。使得在实际工程中利用深度强化学习进行多无人机协同路径规划成为可能。

本发明的原理：

首先，单个智能体需要对自己的雷达探测信号进行向量化处理，作为描述智能体空间状态的一种表示方式。这些状态序列存在时空关联性，所以对状态进行计算和网络前向通过时，考虑具有时序存贮记忆的循环神经网络。

其次，神经网络的训练需要监督数据，监督数据来自智能体与环境的交互产生的一系列序列。交互序列存在高的时空关联性，而神经网络的训练需要训练集的独立同分布，否则训练效果会大打折扣。为此，对训练集采用了Experience Replay的结构处理，当交互序列未达到上限时，不断存储这些序列，当进行神经网络训练时，要随机从该结构中抽取部分序列进行训练。神经网络的目标函数设置成最小化Q_{tar get}和Q_eval之间的差异。因为Q_eval和Q_{tar get}采用了相同的神经网络，在同一时间步同时更新两个网络参数，当某一回合产生较大方差时，这个偏差会立刻传递到下一个更新回合中，造成数据的巨大波动。为了解决这个问题，采用了分步时间差更新方法，每一步都更新Q_eval的参数，一定步数后，再对Q_{tar get}参数进行更新。最后，为了提高算法的鲁棒性和收敛性，采用了分层训练的方法。不同低层神经网络实现了不同的低级功能：无人机在探测到障碍时的转向动作、探测到目标点时向目标点靠拢等。中层神经网络继承于低层神经网络，实现了更为复杂的功能路径规划功能。高层神经网络通过监测所有智能体的状态序列，实现无人机之间的协同配合与协同避障。因为各神经网络需要监测较长时间内的状态序列变化，为了更稳定存储这种长期记忆，各神经网络的结构采用了循环神经网络结构。

本发明方法包括如下具体步骤：

本发明一种基于分层强化学习的多无人机路径协同规划方法，包括以下步骤：

步骤S01：提取多无人机中的每个无人机的特征向量(S_t,a_t)，S_t为无人机状态向量，无人机每一时刻t所采取的动作a_t；所有无人机的特征向量组成特征空间(S,A)，S代表无人机的状态向量；A代表无人机采取的动作；对所有的特征空间进行存储，形成记忆库ERB(Experience Replay Buffer)；再依据多无人机中无人机的任务目标，对任务目标中需要执行的任务进行分层即分为多个子任务，每一个子任务由一个神经网络实现，形成由多个子任务构成的各神经网络，并初始化各神经网络参数，得到初始各神经网络；

步骤S02：对各神经网络进行关联，将步骤S01所获得的特征空间中所有的特征向量依次通过初始各神经网络，得到输出结果，记为Q_eval(S,A,θ₀)，θ₀是初始各神经网络的参数；再依据强化学习时序差分预测理论，计算目标输出值Q_{tar get}(S,A,θ₀)，特征空间(S,A)与Q_{tar get}(S,A,θ₀)目标输出值一起，得到各神经网络的训练集{(S,A),Q_{tar get}(S,A,θ₀)}；

步骤S03：最小化步骤S02中得到的输出结果与目标输出值Q_{tar get}(S,A,θ₀)之间的差距|Q_eval(S,A,θ₀)-Q_{tar get}(S,A,θ₀)|²，作为损失函数，利用梯度下降对进行各神经网络进行参数更新，不断更新θ₀，当损失函数的值小于给定阈值时或达到指定的步数时，认为各神经网络训练完毕，得到收敛的各神经网络；

步骤S04：在上述步骤得到收敛的各神经网络后，控制多无人机进行协同路径规划，利用步骤S01所述方法，对各无人机所采集到的雷达观测信号进行量化，得到各自的特征空间；将各自特征空间中的特征向量依次通过步骤S03获得的收敛的各神经网络，得到各输出值Q；选取使Q最大的动作A，作为各无人机的控制信号，即实现多无人机协同路径规划，A＝argmax_AQ_eval(S,A,θ₀)，θ₀为初始各神经网络参数。

步骤S01中，提取多无人机中的每个无人机的特征向量(S_t,a_t)的过程如下：

获取多无人机中每个无人机的雷达观测信号，雷达观测信号包含无人机的位置信息和速度信息，对所述雷达观测信号进行模数转换得到数字化表示的无人机状态向量S_t＝(x₀,y₀,z₀,v_x,v_y,v_z,d)，其中t表示当前时刻，(x₀,y₀,z₀)为此时无人机在三维空间中的坐标，(v_x,v_y,v_z)为此时无人机的速度在三个方向上的分解，d为无人机与障碍物之间的距离；获取无人机每一时刻t所采取的动作a_t，与状态向量一起组成特征向量(S_t,a_t)，所有的特征向量(S_t,a_t)组成特征空间(S,A)。

步骤S01中，为了实现一个复杂的功能，将多无人机协同路径规划的任务进行子任务分解，每一个子任务由一个神经网络实现；所述分解的子任务为：单机避障、单机寻找目标点、多个无人机共同进行路径规划；较低层神经网络实现较为简单的子任务，而较高层在简单子任务的基础上实现更复杂的功能。每一个子任务建立的神经网络包括：低层、中层和高层：低层为方向控制网络和目标锁定控制网络，实现单个无人机的避障与目标捕捉；中层为单智能体综合网络实现单机的路径规划；高层为多智能体协同控制网络，实现多个无人机的协同路径规划。

对于低层的方向控制网络、目标锁定控制网络，无人机每一时刻t所采取的动作a_t＝{向前、半左转、左转、半右转、右转、向后}，动作向量用独热图表示，向前：(1,0,0,0,0,0)；半左转：(0,1,0,0,0,0)；左转：(0,0,1,0,0,0)；半右转：(0,0,0,1,0,0)；右转：(0,0,0,0,1,0)；向后：(0,0,0,0,0,1)；

对于中层的单智能体综合网络，无人机每一时刻t所采取的动作a_t＝{调用方向控制网络，调用目标锁定控制网络}，动作向量用独热图表示，调用方向控制网络＝(1,0)，调用目标锁定控制网络＝(0,1)；

对于高层的多智能体协同控制网络，无人机每一时刻t所采取的动作a_t＝{调用某一个单智能体综合网络}，动作向量用独热图表示，当第k个单智能体综合网络被选中时，该位置的值为1，其余为0，第一个被调用＝(1,0,…,0)。

所述S01中，为了保留特征向量中所蕴含的无人机时空信息，各神经网络的结构采用循环神经网络的架构，各神经网络的输入层包含13个神经元，激活函数为ReLU；第一隐藏层40个神经元，激活函数为ReLU；第二隐藏层为150个神经元，激活函数为ReLU；输出层为1个神经元，激活函数为softmax函数。

步骤S01中，初始各神经网络的参数θ₀＝(weights,biaes)，weights＝0.1,biaes＝0.01，weights是神经元的权重，biaes是神经元的偏置。

所述步骤S02中对各神经网络进行关联是各神经网络通过在当前时刻基于状态采取的动作在环境中得到的奖励r_t进行关联，具体关联如下：

对于低层的方向控制网络、目标锁定控制网络，碰撞时r_t＝-1，其他时r_t＝0；抵达目标r_t＝0，驶离任务空域r_t＝-1；

对于中层的单智能体综合网络，在探测到无人机周围存在障碍时调用方向控制网络，或周围无障碍时调用目标锁定控制网络时r_t＝1，其余r_t＝-1；

对于高层的多智能体协同控制网络，当某一无人机周围探测到存在障碍时，调用该无人机的单智能体综合网络r_t＝1，其余r_t＝-1。

所述S02中，得到各神经网络的训练集{(S,A),Q_{tar get}(S,A,θ₀)}具体如下：

从步骤S01获得的Experience Replay Buffer中选取一部分特征向量{(S_t,a_t,)}∈(S,A)，作为神经网络的输入，得到输出Q_eval，将Q_eval进行暂时存储；依据强化学习时序差分预测理论，计算其中θ₀＝(weights,biaes)代表θ₀为初始各神经网络参数：权重与偏置；S_t与S_t+1分别代表当前时刻与下一时刻无人机的状态向量；a_t与a_t+1分别代表当前时刻和下一时刻无人机采取的动作；γ是一个大于0小于1的常数；rt代表当前时刻基于状态采取的动作在环境中得到的奖励；

将上述步骤计算得到的Q_{tar get}(S_t,a_t,θ₀)，连同S_t,a_t组成{(S_t,a_t,Q_{tar get}(S_t,a_t,θ₀))}，作为各神经网络训练的训练数据，每一批{(S_t,a_t,Q_{tar get}(S_t,a_t,θ₀))}训练数据共同组成了各神经网络训练集{(S,A),Q_{tar get}(S,A,θ₀)}。

所述步骤S03中，参数更新方法采用一种分步时间差的更新方法：每一步更新Q_{tar get}(S,A,θ)中的参数θ₀；每T个时间步长后更新Q_eval(S,A,θ₀)中的参数θ₀。

本发明的一种基于分层强化学习的多无人机路径协同规划装置，如图4所示，包括传感器探测模块、MCU计算模块、RAM存储模块、神经网络专用芯片、信号转化模块、硬件控制模块；

传感器模块集成声波雷达、激光雷达、测速陀螺传感器设备，用于无人机环境信息的提取，无人机环境信息包含：坐标位置、速度大小与角度、距离障碍物远近与角度；

MCU计算模块，进行基础数学运算，用于对传感器模块所获得的数据信息进行量化，用于对神经网络专用芯片计算结果的再处理，通过搭载单片机、CPU微型计算芯片进行集成获得；

RAM存储模块，搭载存储芯片的模块，用于数据的存储与提取；

神经网络专用芯片，集成基本的神经网络运算算法，基本的神经网络运算算法包括梯度下降更新算法、激活函数运算法、张量求导；神经网络专用芯片通过搭载神经网络专用芯片而集成；

信号转化模块：用于对MCU计算模块所获得的数据进行转化，便于硬件控制模块识别数据信息，以产生正确的控制指令。主要有模拟和数字转化芯片集成；

硬件控制模块：用于接受来自信号转化模块模拟指令信号，转化为模拟信号进行无人机动作控制，为模拟/数字转化芯片与机械耦合硬件设备集成；

上述各个模块的实现过程为：

(1)传感器模块测得无人机所处的环境信息，为模拟信号；

(2)在MCU模块中进行数字/模拟转化，将模拟信号量化为数字信号便于后续运算；

(3)在RAM存储模块中将来自MCU模块的数据信息进行暂时存储，便于进行(4)的运算；

(4)在神经网络专用芯片中，读取RAM存储模块的数据，进行神经网络运算过程，直到运算结束；

(5)将(4)中获取的神经网络参数保存，对(1)、(2)处理后的数据进行神经网络运算，并选取最大值的动作，传输到信号转化模块中；

(6)对(5)所选择的的动作值进行模拟和数字转化，获得模拟信号，以进行无人机动作的控制；

(7)对(6)的模拟信号处理，输出到机械耦合设备，控制无人机的运行动作。

本发明与现有技术相比的优点在于：通过借鉴深度Q学习方法的更新步骤和深度神经网络的映射功能，实现了对海量状态的评估以及特定状态下的动作选择，消除了“维度灾难”，实现了智能体自我环境感知的功能。本装置中，通过构建高低层次网络，对特定的功能设置特定的网络，网络之间均在继承关系，大大加速了神经网络的训练速度，提高了神经网络的收敛效果，实现了智能体之间配合和协同等更为复杂的行为。

附图说明

图1为本发明方法的流程图；

图2为本发明方法的算法流程图；

图3为本发明方法低层和次高层网络连接关系图；

图4为本发明方法次高层与高层网络连接关系图；

图5为本发明装置各模块工作关系图。

具体实施方式

为使本发明实施的目的、技术方案和优点更加清楚，下面将结合本发明装置的结构示意图以及算法的详细步骤进行清除、完整的描述。

本发明提供一种基于分层强化学习的空中多无人机协同路径规划方法，考虑的问题是：对于单个无人机，能够找到一条最短和最安全的路径；除此，无人机之间满足一定的条件约束，这个条件约束一般是根据实际任务的需求来设置的，比如：物流机器人尽可能保持同一纵队飞行，将一批较多的货物运送至同一配送点。

为了消除经典强化学习Q学习方法中存在的“维度灾难”问题，使用神经网络存储计算参数，提高实时性，而神经网络训练的监督数据来自基于Q学习理论的迭代公式。

经典强化学习Q学习理论中，引入了状态动作价值函数Q(S_t,a_t)，该函数的意义代表：在状态S_t时采取动作a_t价值的高低，价值越高，代表该动作越“明智”，能够在当前的环境动力学中获得较大的奖励；反之，代表该动作“不合理”，要尽可能避免。Q学习理论中动作价值函数的迭代公式源自时序差分强化学习算法，它不在考虑一个完整的状态序列，而是在每一步转移后都已进行一次价值函数的更新，当前时刻的动作价值函数可以通过下一个时刻动作价值函数计算出，直至Q函数收敛：Q(S_t,a_t)＝R(S_t,a_t)+γmaxQ(S_t+1,a_t+1)，其中S_t为t时刻智能体的状态；a_t为t时刻智能体采取的动作；R(S_t,a_t)为t时刻智能体在状态S_t时采取动作a_t得到的环境反馈；γ是衰减因子，为了减弱未来时刻对当前价值的影响，取值介于0～1之间。

所有可能经历的状态的Q值被计算和存储，当两次迭代中Q值变化小于设定的阈值，认为Q函数收敛。此时，对于一个智能体的控制问题转化成了公式：

a＝argmax_a∈AQ(S,A)

可见，在经典强化学习问题中，每个状态的Q值被存储，并形成一个巨大的表格。当迭代计算结束后，就可以进行智能体的控制。但是实际问题中，状态往往巨大，存储难以达到要求，并且这种查表式的计算会使得实时性非常低下。利用深度神经网络的非线性性质，理论上可以实现任何的映射问题，本发明使用深度学习网络对Q表格进行拟合：

θ代表神经网络的参数θ＝(weights，biaes)，是需要通过监督数据的训练才可以获得的。

监督数据来自于Q学习迭代公式，Q_{tar get}(S,A,θ)＝r_t+γmaxQ_eval(S,A,θ)。

神经网络的代价函数设置为最小化Q_{tar get}(S,A,θ)与Q_eval(S,A,θ)的最小均方误差：

cost function＝min{|Q_eval(S,A,θ)-Q_{tar get}(S,A,θ)|²}

然后进行神经网络参数θ的更新。

可见，产生监督数据的神经网络参数和每次需要更新的神经网络参数是一样的，这会造成巨大的数据波动，为了减小方差，稳定神经网络的训练效果，采用时间步差更新方法，暂时冻结一个网络，只更新另一个网络：

Q_eval(S,A,θ^-)←Q_eval(S,A,θ)

Q_{tar get}(S,A,θ)←Q_{tar get}(S,A,θ)

其中，θ为当前时刻神经网络的参数，θ^-为上一时刻神经网络的参数。

交互数据{S,A}通过智能体与环境交互得出，具有很高的时空关联度，会影响基于统计4机器学习的神经网络的训练效果。为了减小这种相关性，采用了一个ExperienceReplay Buffer的暂时存储结构，每次计算所需要的{S,A}，均从该结构中随机抽样得到。

另一方面，交互数据{S,A}的时空关联对模型的认知又是有益的，为了存储这种时序特征，将神经网络的结构设置为具有存贮记忆的循环神经网络结构(RNN)。同时，在协同方面，不同智能体之间的关联度具有高度重要意义，为了更长时间保存这种记忆特征，高层协同网络采用LSTM结构。

整个发明的方法可以用以下流程图1来说明：

步骤1：获取多无人机中每个无人机的雷达观测信号，对雷达观测信号(模拟信号)包含无人机的位置信息和速度信息通过模拟-数字转换器，得到数字化表示的无人机状态向量：S_t＝(x₀,y₀,z₀,v_x,v_y,v_z,d)，其中t表示当前时刻。其中位置信息包含了：此时无人机在三维空间中的坐标(x₀,y₀,z₀)，无人机与障碍物之间的距离d。速度信息包含了：此时无人机的速度在三个方向上的分解(v_x,v_y,v_z)。位置信息与速度信息一起组成了状态向量S_t＝(x₀,y₀,z₀,v_x,v_y,v_z,d)。同时记录无人机每一时刻t时所采取的动作a_t，与状态向量一起组成特征向量(S_t,a_t)。所有的特征向量(S_t,a_t)组成特征空间(S,A)。将特征空间(S,A)命名为记忆库ERB(Experience Replay Buffer)。

依据任务目标，建立各神经网络。为了实现一个复杂的功能，将多无人机协同路径规划的任务进行子任务分解，每一个子任务由一个神经网络实现。分解的子任务为：单机避障、单机寻找目标点、多个无人机共同进行路径规划。对每一个子任务建立一个神经网络：低层为方向控制网络、目标锁定控制网络，实现单个无人机的避障与目标捕捉；中层为单智能体综合网络实现单机的路径规划；高层为多智能体协同控制网络，实现多个无人机的协同路径规划。

在本发明中，各神经网络训练的监督数据基于强化学习时序差分预测理论：Q_{tar get}(S,A,θ)＝r_t+γmaxQ_eval(S,A,θ)，因此定义每个神经网络对应的动作空间是必要的。

对于低层方向控制网络、目标锁定控制网络，相关的动作a_t＝{向前、半左转、左转、半右转、右转、向后}，动作向量用独热图表示，向前：(1,0,0,0,0,0)；半左转：(0,1,0,0,0,0)；左转：(0,0,1,0,0,0)；半右转：(0,0,0,1,0,0)；右转：(0,0,0,0,1,0)；向后：(0,0,0,0,0,1)。

对于中层单智能体综合网络，相关的动作a_t＝{调用方向控制网络，调用目标锁定控制网络}，动作向量用独热图表示，调用方向控制网络＝(1,0)，调用目标锁定控制网络＝(0,1)。

对于高层多智能体协同控制网络，相关的动作a_t＝{调用某一个单智能体综合网络}，动作向量用独热图表示，当第k个单智能体综合网络被选中时，该位置的值为1，其余为0，如第一个被调用＝(1,0,…,0)。

初始化各神经网络参数，以获得初始各神经网络。为了更好利用交互序列中隐藏的时空关联信息，各神经网络的结构均采用了循环神经网络结构。各神经网络输入层包含13个神经元，激活函数为ReLU；第一隐藏层40个神经元，激活函数为ReLU；第二隐藏层为150个神经元，激活函数为ReLU；输出层为1个神经元，激活函数为softmax函数。各神经网络的神经元初始化：θ₀＝(weights,biaes)→weights＝0.1,biaes＝0.01,其中，weights是神经元的权重，biaes是神经元的偏置。

步骤2：对步骤S01中依据任务目标，建立的各神经网络进行关联。各神经网络的收敛过程依赖于环境动力学所提供的实时奖励r_t，因此，实现各子任务的各神经网络之间，可以通过设计实时奖励r_t进行关联。图3为低层神经网络与中层神经网络之间的连接关系：两个RNN结构的低层网络实现基础子任务：避障与目标捕捉，RNN结构神经网络用图中RNN-Dense符号表示；中层集成于低层，集成低层两个基础子任务，实现单个无人机路径规划，输出分别控制低层目标锁定控制网络或方向控制网络，在图中，用开关符号表示中层神经网络对低层神经网络的选择性控制；图4中，高层集成多个中层，实现多个无人机的协同路径规划，RNN结构神经网络同样用RNN-Dense符号表示，流线有向图表示高层神经网络对中层神经网络的控制作用和控制逻辑。

在步骤1建立的各神经网络的基础上，定义环境动力学实时奖励。

对于低层方向控制网络、目标锁定控制网络，碰撞时r_t＝-1，其他r_t＝0；抵达目标r_t＝0，驶离任务空域r_t＝-1。低层完成基础子任务：无人机避障与目标捕捉。

对于中层单智能体综合网络，在探测到无人机周围存在障碍时调用方向控制网络，或周围无障碍时调用目标锁定控制网络r_t＝1，其余r_t＝-1。中层集成低层两个基础子任务：避障与目标捕捉，实现无人机单机的路径规划。

对于高层多智能体协同控制网络，当某一无人机周围探测到存在障碍时，调用该无人机的单智能体综合网络r_t＝1，其余r_t＝-1。高层集成多个中层，实现多个无人机的路径规划。

为了缓解数据相关性对各神经网络训练的影响，以及各神经网络的计算负担每次从步骤1获得的Experience Replay Buffer中选取一部分特征向量{(S_t,a_t,)}∈(S,A)，作为神经网络的输入，得到输出Q_eval，将Q_eval进行暂时存储。依据强化学习时序差分预测理论，计算其中θ₀＝(weights,biaes)代表了神经网络初始的网络参数：权重与偏置；S_t与S_t+1分别代表当前时刻与下一时刻无人机的状态向量；a_t与a_t+1分别代表当前时刻和下一时刻无人机采取的动作；γ是一个大于0小于1的常数；r_t代表了当前时刻基于状态采取的动作在环境中得到的奖励。

将上述步骤计算得到的Q_{tar get}(S_t,a_t,θ₀)，连同S_t,a_t组成{(S_t,a_t,Q_{tar get}(S_t,a_t,θ₀))}，作为各神经网络训练的训练数据。每一批{(S_t,a_t,Q_{tar get}(S_t,a_t,θ₀))}训练数据共同组成了各神经网络训练集{(S,A),Q_{tar get}(S,A,θ₀)}。

步骤3：以|Q_eval(S,A,θ₀)-Q_{tar get}(S,A,θ₀)|²为损失函数，其中θ₀＝(weights,biaes)代表了神经网络初始的网络参数：权重与偏置；S代表无人机的状态向量；A代表无人机采取的动作；γ是一个大于0小于1的常数；r_t代表了当前时刻基于状态采取的动作在环境中得到的奖励，利用Adam梯度下降方法对进行各神经网络进行参数更新，不断更新θ₀＝(weights,biaes)。

统计机器学习的数学理论基础是基于最大似然估计的贝叶斯决策论，神经网络优良的表现效果与数据的独立同分布性密不可分。多无人机路径协同规划问题中，雷达传感器所探测到的状态向量、特征向量具有高度的时空关联。这种高相关性会削弱神经网络的训练效果。为了减少数据相关性对神经网络训练的影响，采用了一种分步时间差的更新方法：每一步更新Q_{tar get}(S,A,θ)中的参数θ₀；每T个时间步长后更新Q_eval(S,A,θ₀)中的参数θ₀。

当损失函数的值小于给定阈值时或达到指定的步数时，认为各神经网络训练完毕，得到收敛的各神经网络。具体如下：

步骤3.1：从Experience Replay Buffer中随机抽取一小批训练数据放入神经网络中进行前向通过，获得Q-估计值:Q_eval(S,A,θ₀)；

步骤3.2：利用Q学习Q值更新公式计算Q-目标：

Q_{tar get}(S,A,θ₀)＝r_t+γmax_AQ_eval(S,A,θ₀)

步骤3.3：最小化|Q_eval(S,A,θ₀)-Q_{tar get}(S,A,θ₀)|²

步骤3.4：每一步更新Q_{tar get}(S,A,θ₀)中的参数θ₀；每T个时间步长后更新

Q_eval(S,A,θ₀)中的参数θ₀。

步骤4：利用步骤1中对各无人机所采集到的雷达观测信号量化方法，得到特征空间；将各自特征空间中的特征向量依次通过步骤3获得的收敛的各神经网络，得到各输出值Q_eval；选取使Q_eval最大的动作a，作为各无人机的控制信号，即可实现多无人机协同路径规划，即：A＝argmax_AQ_eval(S,A,θ₀)，其中S为状态向量，A为动作空间，θ₀为神经网络参数。

实现多无人机路径协同规划可通过多个模块的协调工作完成，如图5所示：来自环境的探测波信号通过无人机传感器模块处理，完成模拟信号成形；通过MCU计算模块完成对模拟信号的量化，将模拟信号转化为向量；在RAM存储模块中暂时存储，送入神经网络专用芯片模块完成神经网络的训练；根据神经网络专用芯片模块输出值，在MCU中选取与输出值对应的动作信号，传递给信号转化模块和硬件控制模块，完成无人机的控制。

Claims

1.一种基于分层强化学习的多无人机路径协同规划方法，其特征在于，包括以下步骤：

步骤S01：提取多无人机中的每个无人机的特征向量(S_t，a_t)，S_t为无人机状态向量，a_t为无人机每一时刻t所采取的动作；所有无人机的特征向量组成特征空间(S，A)，S代表无人机的状态向量；A代表无人机采取的动作；对所有的特征空间进行存储，形成记忆库ERB(Experience Replay Buffer)；再依据多无人机中无人机的任务目标，对任务目标中需要执行的任务进行分层即分为多个子任务，每一个子任务由一个神经网络实现，形成由多个子任务构成的各神经网络，并初始化各神经网络参数，得到初始各神经网络；

步骤S02：对各神经网络进行关联，将步骤S01所获得的特征空间中所有的特征向量依次通过初始各神经网络，得到输出结果，记为Q_eval(S，A，θ₀)，θ₀是初始各神经网络的参数；再依据强化学习时序差分预测理论，计算目标输出值Q_target(S，A，θ₀)，特征空间(S，A)与Q_target(S，A，θ₀)目标输出值一起，得到各神经网络的训练集{(S，A)，Q_target(S，A，θ₀)}；

步骤S03：最小化步骤S02中得到的输出结果与目标输出值Q_target(S，A，θ₀)之间的差距|Q_eval(S，A，θ₀)-Q_target(S，A，θ₀)|²，作为损失函数，利用梯度下降对进行各神经网络进行参数更新，不断更新θ₀，当损失函数的值小于给定阈值时或达到指定的步数时，认为各神经网络训练完毕，得到收敛的各神经网络；

步骤S04：在上述步骤得到收敛的各神经网络后，控制多无人机进行协同路径规划，利用步骤S01所述方法，对各无人机所采集到的雷达观测信号进行量化，得到各自的特征空间；将各自特征空间中的特征向量依次通过步骤S03获得的收敛的各神经网络，得到各输出值；选取使最大的动作，作为各无人机的控制信号，即实现多无人机协同路径规划。

2.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法，其特征在于：步骤S01中，提取多无人机中的每个无人机的特征向量(S_t，a_t)的过程如下：

获取多无人机中每个无人机的雷达观测信号，雷达观测信号包含无人机的位置信息和速度信息，对所述雷达观测信号进行模数转换得到数字化表示的无人机状态向量S_t＝(x₀，y₀，z₀，v_x，u_y，v_z，d)，其中t表示当前时刻，(x₀，y₀，z₀)为此时无人机在三维空间中的坐标，(v_x，u_y，v_z)为此时无人机的速度在三个方向上的分解，d为无人机与障碍物之间的距离；获取无人机每一时刻t所采取的动作a_t，与状态向量一起组成特征向量(S_t，a_t)，所有的特征向量(S_t，a_t)组成特征空间(S，A)。

3.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法，其特征在于：步骤S01中，为了实现一个复杂的功能，将多无人机协同路径规划的任务进行子任务分解，每一个子任务由一个神经网络实现；所述分解的子任务为：单机避障、单机寻找目标点、多个无人机共同进行路径规划；较低层神经网络实现较为简单的子任务，而较高层在简单子任务的基础上实现更复杂的功能；每一个子任务建立的神经网络包括：低层、中层和高层：低层为方向控制网络和目标锁定控制网络，实现单个无人机的避障与目标捕捉；中层为单智能体综合网络实现单机的路径规划；高层为多智能体协同控制网络，实现多个无人机的协同路径规划。

4.根据权利要求3所述的基于分层强化学习的多无人机路径协同规划方法，其特征在于：对于低层的方向控制网络、目标锁定控制网络，无人机每一时刻t所采取的动作a_t＝{向前、半左转、左转、半右转、右转、向后}，动作向量用独热图表示，向前：(1，0，0，0，0，0)；半左转：(0，1，0，0，0，0)；左转：(0，0，1，0，0，0)；半右转：(0，0，0，1，0，0)；右转：(0，0，0，0，1，0)；向后：(0，0，0，0，0，1)；

对于中层的单智能体综合网络，无人机每一时刻t所采取的动作a_t＝{调用方向控制网络，调用目标锁定控制网络}，动作向量用独热图表示，调用方向控制网络＝(1，0)，调用目标锁定控制网络＝(0，1)；

对于高层的多智能体协同控制网络，无人机每一时刻t所采取的动作a_t＝{调用某一个单智能体综合网络}，动作向量用独热图表示，当第k个单智能体综合网络被选中时，该位置的值为1，其余为0，第一个被调用＝(1，0，...，0)。

5.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法，其特征在于：所述S01中，为了保留特征向量中所蕴含的无人机时空信息，各神经网络的结构采用循环神经网络的架构，各神经网络的输入层包含13个神经元，激活函数为ReLU；第一隐藏层40个神经元，激活函数为ReLU；第二隐藏层为150个神经元，激活函数为ReLU；输出层为1个神经元，激活函数为softmax函数。

6.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法，其特征在于：步骤S01中，初始各神经网络的参数θ₀＝(weights，biaes)，weights＝0.1，biaes＝0.01，weights是神经元的权重，biaes是神经元的偏置。

7.根据权利要求3所述的基于分层强化学习的多无人机路径协同规划方法，其特征在于：所述步骤S02中对各神经网络进行关联是各神经网络通过在当前时刻基于状态采取的动作在环境中得到的奖励r_t进行关联，具体关联如下：

8.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法，其特征在于：所述S02中，得到各神经网络的训练集{(S，A)，Q_target(S，A，θ₀)}具体如下：

从步骤S01获得的Experience Replay Buffer中选取一部分特征向量{(S_t，a_t，)}∈(S，A)，作为神经网络的输入，得到输出Q_eval，将Q_eval进行暂时存储；依据强化学习时序差分预测理论，计算Q_target(S_t，a_t，θ₀)＝r_t+γmaxa_t+1Q_eval(S_t+1，a_t+1，θ₀)，其中θ₀＝(weights，biaes)代表θ₀为初始各神经网络参数：权重与偏置；S_t与S_t+1分别代表当前时刻与下一时刻无人机的状态向量；a_t与a_t+1分别代表当前时刻和下一时刻无人机采取的动作；γ是一个大于0小于1的常数；r_t代表当前时刻基于状态采取的动作在环境中得到的奖励；

将上述步骤计算得到的Q_target(S_t，a_t，θ₀)，连同S_t，a_t组成{(S_t，a_t，Q_target(S_t，a_t，θ₀))}，作为各神经网络训练的训练数据，每一批{(S_t，a_t，Q_target(S_t，a_t，θ₀))}训练数据共同组成了各神经网络训练集{(S，A)，Q_target(S，A，θ₀)}。

9.根据权利要求1所述的基于分层强化学习的多无人机路径协同规划方法，其特征在于：所述步骤S03中，参数更新方法采用一种分步时间差的更新方法：每一步更新Q_target(S，A，θ)中的参数θ₀；每T个时间步长后更新Q_eval(S，A，θ₀)中的参数θ₀。

10.一种基于分层强化学习的多无人机路径协同规划装置，其特征在于：包括传感器探测模块、MCU计算模块、RAM存储模块、神经网络专用芯片、信号转化模块、硬件控制模块；

上述各个模块的实现过程为：

(1)传感器模块测得无人机所处的环境信息，为模拟信号；

(5)将步骤(4)中获取的神经网络参数保存，对步骤(1)、(2)处理后的数据进行神经网络运算，并选取最大值的动作，传输到信号转化模块中；

(6)对步骤(5)所选择的的动作值进行模拟和数字转化，获得模拟信号，以进行无人机动作的控制；

(7)对步骤(6)的模拟信号处理，输出到机械耦合设备，控制无人机的运行动作。