CN111857184A

CN111857184A - 基于深度强化学习的固定翼无人机群集控制避碰方法及装置

Info

Publication number: CN111857184A
Application number: CN202010761043.7A
Authority: CN
Inventors: 闫超; 相晓嘉; 王菖; 吴立珍; 黄依新; 刘兴宇; 兰珍
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-10-30
Anticipated expiration: 2040-07-31
Also published as: CN111857184B

Abstract

本发明公开一种基于深度强化学习的固定翼无人机群集控制避碰方法及装置，该方法步骤包括：S1.建立无人机运动学模型以及D3QN，并使用各僚机与环境交互过程中的历史交互数据更新网络参数，训练形成D3QN模型，其中交互过程中根据环境状态构建僚机与长机之间的联合状态，同时进行态势评估构建得到局部地图，输入至D3QN模型得到各僚机的控制指令输出；S2.各僚机分别实时获取状态信息构成当前僚机与长机之间联合状态，实时进行态势评估构建得到局部地图；将实时构建的联合状态、局部地图输入至D3QN网络模型得到各僚机的控制指令。本发明具有实现方法简单、可扩展性好，能够实现固定翼无人机群集控制，同时避免碰撞等优点。

Description

基于深度强化学习的固定翼无人机群集控制避碰方法及装置

技术领域

本发明涉及固定翼无人机群集控制技术领域，尤其涉及一种基于深度强化学习的固定翼无人机群集控制避碰方法及装置。

背景技术

随着无人机系统技术的不断发展，无人机在灾难搜救、地理测绘、军事侦查等各类军事行动和民用任务得到了广泛的应用。近年来，无人机的运用样式已逐步从单平台转向多平台、朝着集群化的方向发展。尽管近年来无人机在操作自主性方面取得了长足的进步，但在动态环境下高效便捷地操控无人机集群群集仍然面临较大挑战。

目前无人机群集控制方法可分为两大类：规则型方法和学习型方法，其中规则型方法的灵活性和扩展性较差，学习型方法可以解决上述问题，尤其是强化学习型方法近年来得到了广泛的关注，也取得了较为成功的应用。但现有技术中基于强化学习的无人机群集控制解决方案通常都是主要针对旋翼无人机，而与旋翼无人机不同，由于固定翼无人机的飞行动力学的非完整约束，固定翼无人机群集控制更加复杂，适用于旋翼机的控制策略并不能直接应用于固定翼无人机群集控制。

有从业者提出使用深度强化学习方法解决固定翼无人机群集控制问题，但是该研究尚处于比较初级的阶段，均是通过简化问题来实现，一般都是假设无人机在不高度层飞行，不考虑无人机之间的碰撞问题，但在某些实际应用场景中，无人机编队需要在相同高度层飞行以遂行任务，避免机间碰撞是一个必须考虑的问题，而采用上述简化的控制方式来实现固定翼无人机群集控制，无人机之间会存在较大的碰撞风险。因此，亟需提供一种固定翼无人机群集控制避碰方法，能够实现定翼无人机群集控制，同时有效避免机间碰撞。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、可扩展性好，能够实现固定翼无人机群集控制，同时避免碰撞的基于深度强化学习的固定翼无人机群集控制避碰方法及装置。

为解决上述技术问题，本发明提出的技术方案为：

一种基于深度强化学习的固定翼无人机群集控制避碰方法，步骤包括：

S1.模型训练：建立无人机运动学模型以及用于输出无人机控制指令的D3QN，并使用各僚机与环境交互过程中的历史交互数据更新所述D3QN的网络参数，训练形成D3QN模型，其中所述交互过程中，由各僚机分别获取自身及长机的状态信息构成当前僚机与长机之间的联合状态，根据获取的僚机自身及邻近僚机的状态信息进行态势评估以评估无人机间的碰撞风险，并构建得到以当前僚机为中心的局部地图；将所述联合状态、局部地图输入至所述D3QN模型得到各僚机的控制指令输出，并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态；

S2.在线执行：各僚机分别实时获取自身及长机的状态信息构成当前僚机与长机之间联合状态，根据实时获取的自身及邻近僚机的状态信息进行所述态势评估，实时构建得到以当前僚机为中心的局部地图；将实时构建的所述联合状态、局部地图输入至所述D3QN网络模型得到各僚机的控制指令输出，所述控制指令包括滚转角控制指令、速度控制指令。

进一步的，所述进行态势评估的步骤包括：

确定无人机前部、尾部危险区域的几何形状以及对应的半径；

评估僚机危险区域内的碰撞风险：根据所述无人机前部危险区域的半径R_f、机间最小安全距离R_s以及位置p与僚机之间的距离评估单架僚机周围的位置p处的碰撞风险C_p；

由计算得到的单架僚机的所述碰撞风险C_p计算所有僚机的综合碰撞风险值C_s；

将计算得到的所述综合碰撞风险值C_s映射到灰度颜色空间，构建得到以当前僚机为中心的所述局部地图。

进一步的，所述僚机周围的位置p处的碰撞风险C_p具体按下式计算得到：

其中，D为位置p与僚机之间的距离。

进一步的，构建所述局部地图时，具体按照下式将所述综合碰撞风险值C_s映射到灰度颜色空间：

其中，G_max和G_min分别表示最大灰度值和最小灰度值；C_ma和C_min分别表示综合碰撞风险的最大值和最小值。

进一步的，所述步骤S1中构建D3QN时包括构建结构相同的D3QN主网络以及D3QN目标网络，所述D3QN主网络、D3QN目标网络均分别包括特征提取网络和竞争网络，所述特征提取网络包括1层全连接层FC1、卷积神经网络和1层合并层，所述全连接层用于处理当前僚机与长机之间的联合状态，所述卷积神经网络用于提取所述局部地图的特征向量，所述合并层用于融合所述全连接层的输出和所述卷积神经网络的输出，生成最终的系统联合状态的特征输出；

所述竞争网络包含2层全连接层FC2、FC3以及1层拆分层、1个分支结构、1层聚合层，所述拆分层将所述全连接层FC2、FC3的输出拆分为等同维度的两部分，分别用于评估状态值函数和动作优势函数；所述分支结构包括状态值函数分支、滚转动作优势函数分支以及速度动作优势函数分支，分别对应当前状态的值函数、当前状态下待选滚转动作的优势函数和待选速度动作的优势函数；所述聚合层将所述状态值函数分支输出分别与所述滚转动作优势函数分支输出、所述速度动作优势函数分支的输出聚合，生成滚转动作的Q值和速度动作的Q值。

进一步的，所述联合状态、局部地图输入至所述D3QN网络模型得到各僚机的控制指令输出的步骤包括：

Q函数评估：所述D3QN模型以当前僚机与长机之间的所述联合状态和所述局部地图为输入，评估当前状态下所有待选滚转动作和速度动作的Q值；

动作选择：以探索率ε的概率选择最大Q值所对应的滚转动作a_r和速度动作a_v，以1-ε的概率从所有待选滚转动作和速度动作中随机选取僚机的滚转动作a_r和速度动作a_v；

设定值计算：根据选取的所述滚转动作a_r和速度动作a_v，分别按照下式计算僚机的滚转角设定值；

以及计算速度设定值：

其中，φ表示僚机当前滚转角；r_bd表示僚机滚转角的边界值；v_max和v_min分别表示僚机的最大飞行速度和最小飞行速度。

进一步的，所述步骤S1中训练形成D3QN模型时，所述历史交互数据包括当前时刻的联合状态和局部地图、执行的滚转和速度动作、执行动作获取的回报值以及下一时刻的联合状态和局部地图，所述执行动作获取的回报值具体通过计算用于使得僚机与长机保持合适距离的跟随奖励、以及用于避免当前僚机同邻近僚机之间距离过近发生碰撞的碰撞惩罚，并根据所述跟随奖励、碰撞惩罚计算得到。

进一步的，具体按照下式计算所述回报值r：

其中，r_l表示跟随奖励，且满足：

表示碰撞惩罚且满足：

其中，参数d₁和d₂分别为以长机为中心的圆环的内半径和外半径；ρ表示当前僚机与长机之间的距离；D_j表示当前僚机与邻近僚机j之间的距离；ω是调整因子。

进一步的，所述步骤S1中无人机运动学模型具体采用四自由度模型，并引入包括滚转和/或空速子状态的随机项形成具有随机性的固定翼无人机运动学模型；建立的所述固定翼无人机运动学模型具体为：

其中，(x,y)表示无人机的x-y平面位置；ψ表示无人机的航向角；φ表示无人机的滚转角；α_g表示重力加速度；η_x,η_x,η_ψ分别为扰动项且分别服从正态分布以用于模拟无人机位置和航向因环境因素而产生的扰动；f(φ,φ_d)为期望滚转角φ_d与实际滚转角φ之间的函数关系，f(v,v_d)为期望空速v_d与实际空速v之间的函数关系。

一种基于深度强化学习的固定翼无人机群集控制避碰装置，步骤包括：

模型训练模块，用于建立无人机运动学模型以及用于输出无人机控制指令的D3QN，并使用各僚机与环境交互过程中的历史交互数据更新所述D3QN的网络参数，训练形成D3QN模型，其中所述交互过程中，由各僚机分别获取自身及长机的状态信息构成当前僚机与长机之间的联合状态，根据获取的僚机自身及邻近僚机的状态信息进行态势评估以评估无人机间的碰撞风险，并构建得到以当前僚机为中心的局部地图；将所述联合状态、局部地图输入至所述D3QN模型得到各僚机的控制指令输出，并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态；

在线执行模块，用于各僚机分别实时获取自身及长机的状态信息构成当前僚机与长机之间联合状态，根据实时获取的僚机自身及邻近僚机的状态信息进行所述态势评估，实时构建得到以当前僚机为中心的局部地图；将实时构建的所述联合状态、局部地图输入至所述D3QN网络模型得到各僚机的控制指令输出，所述控制指令包括滚转角控制指令、速度控制指令。

与现有技术相比，本发明的优点在于：

1、本发明针对固定翼无人机群集控制，通过在僚机与环境交互过程中获取自身及长机状态信息构成当前僚机与长机之间的联合状态，根据获取的自身及邻居僚机的状态信息进行态势评估，以评估无人机间的碰撞风险，构建得到以当前僚机为中心的局部地图，再基于该联合状态、局部地图进行D3QN的深度强化学习算法模型训练，能够构建得到具有避障功能的D3QN模型，使得对无人机的群集控制策略具有避撞的能力；无人机群集控制在线执行时将实时构建的联合状态、局部地图输入至训练得到的D3QN网络模型中，得到各僚机的控制指令输出即可实现僚机跟随长机自主飞行并避免机间碰撞。

2、本发明能够基于深度强化学习算法在连续状态空间内解决Leader-Follower拓扑下的固定翼无人机的群集控制与碰撞避免问题，不需要依赖于环境模型，也不需要环境的先验知识，有效地提高了僚机的自主决策能力，具有较高的鲁棒性能。

3、本发明构建局部地图时仅需邻近僚机的状态信息，无需全局信息，且局部地图的尺寸与邻近僚机的数量无关，使得基于深度强化学习的群集控制策略具有良好的可扩展性，能够适应不同规模的固定翼无人机编队的群集控制。

4、本发明进一步通过考虑无人机在恒定高度飞行的特性，采用简化的四自由度模型描述无人机运动学模型，同时考虑环境扰动的影响，在滚转、空速等各个子状态引入随机项，能够模拟真实世界的随机性，弥补简化模型带来的精度损失，建立得到具有随机性的固定翼无人机运动学模型，使得在该环境中训练得到的控制策略能够直接迁移到真实世界中，同时在无人机模型中还设置了速度响应函数，允许无人机改变自身速度飞行，更加贴近现实情况，从而构建得到更为精确的固定翼无人机运动学模型。

5、本发明进一步计算执行动作获取的回报值时，不仅考虑了跟随奖励，同时还考虑了碰撞惩罚，僚机通过控制自身的滚转角和速度，即可实现僚机与长机保持合适距离飞行，同时避免机间碰撞。

附图说明

图1是本实施例固定翼无人机群集控制避碰方法的实现流程示意图。

图2是本实施例实现固定翼无人机群集与避碰的实现原理示意图。

图3是本实施例中确定无人机危险区域的原理示意图。

图4是本发明在具体应用实施例中长机与僚机期望位置关系的示意图。

图5是本发明在具体实施例中构建得到的典型局部地图的示意图。

图6是本发明在具体实施例中D3QN网络结构示意图；

图7是本发明在具体实施例中长机与僚机的飞行轨迹示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1、2所示，本实施例基于深度强化学习的固定翼无人机群集控制避碰方法的步骤包括：

S1.模型训练：建立用于生成无人机的状态数据的无人机运动学模型以及用于输出无人机控制指令的D3QN(Dueling Double Deep Q-Network，竞争双重Q网络)，并使用各僚机与环境交互过程中的历史交互数据更新D3QN的网络参数，训练形成D3QN模型，其中交互过程中由各僚机分别获取自身及长机状态信息构成当前僚机与长机之间的联合状态(当前僚机-长机联合状态)，根据获取的僚机自身及邻近僚机的状态信息(环境状态)进行态势评估以评估无人机间的碰撞风险，并构建得到以当前僚机为中心的局部地图；将联合状态、局部地图输入至D3QN模型得到各僚机的控制指令输出，并根据无人机运动学模型得到长机以及僚机的下一时刻状态；

S2.在线执行：各僚机分别实时获取自身及长机的状态信息构成当前僚机与长机之间联合状态，根据实时获取的僚机自身及邻近僚机的状态信息(环境状态)进行所述态势评估，实时构建得到以当前僚机为中心的局部地图；将实时构建的联合状态、局部地图输入至D3QN网络模型得到各僚机的控制指令输出，控制指令包括滚转角控制指令、速度控制指令。

本实施例针对固定翼无人机群集控制，通过在僚机与环境交互过程中获取自身及长机状态信息构成当前僚机与长机之间的联合状态，根据获取的自身及邻居僚机的状态信息进行态势评估，以评估无人机间的碰撞风险，构建得到以当前僚机为中心的局部地图，再基于该联合状态、局部地图进行D3QN的深度强化学习算法模型训练，能够构建得到具有避障功能的D3QN模型，使得对无人机的群集控制策略具有避撞的能力；无人机群集控制在线执行时对实时构建的联合状态、局部地图使用该D3QN模型，即可实现僚机跟随长机自主飞行并避免机间碰撞。本实施例基于深度强化学习算法在连续状态空间内解决Leader-Follower拓扑下的固定翼无人机的群集控制与碰撞避免问题，不需要依赖于环境模型，也不需要环境的先验知识，有效地提高了僚机的自主决策能力，具有较高的鲁棒性能。

考虑无人机在恒定高度飞行，本实施例步骤S1中无人机运动学模型具体采用四自由度模型，并引入包括滚转、空速子状态等的随机项形成具有随机性的固定翼无人机运动学模型；建立的固定翼无人机运动学模型具体为：

本实施例通过考虑无人机在恒定高度飞行的特性，采用简化的四自由度模型描述无人机运动学模型，同时考虑环境扰动的影响，在滚转、空速等各个子状态引入随机项，能够模拟真实世界的随机性，弥补简化模型带来的精度损失，建立得到具有随机性的固定翼无人机运动学模型，使得在该环境中训练得到的控制策略能够直接迁移到真实世界中，同时在无人机模型中还设置了速度响应函数，允许无人机改变自身速度飞行，更加贴近现实情况，从而构建得到更为精确的固定翼无人机运动学模型。

本实施例步骤S1中构建D3QN时包括构建结构相同的D3QN主网络以及D3QN目标网络，D3QN主网络、D3QN目标网络均分别包括两个子网络：特征提取网络和竞争网络，特征提取网络的输入分为两部分：当前僚机与长机之间的联合状态以及局部地图，特征提取网络具体包括1层全连接层(FC1)、4层卷积层(Conv1～Conv4)、1层压平层(Flatten)和1层合并层(Merge)，其中全连接层用于处理当前僚机与长机之间的联合状态，卷积神经网络用于提取局部地图的特征向量，合并层用于融合全连接层的输出和卷积神经网络的输出，生成最终的系统联合状态的特征输出；卷积层均使用ReLU激活函数，填充操作均选择VALID模式，全连接层使用ReLU激活函数。

竞争网络包含2层全连接层(FC2和FC3)、1层拆分层(Split)、1个分支结构、1层聚合层(Aggregate)，全连接层FC2和FC3均使用ReLU激活函数，拆分层(Split)将全连接层FC2、FC3的输出拆分为等同维度的两部分，分别用于评估状态值函数和动作优势函数；分支结构包括3个分支：状态值函数分支、滚转动作优势函数分支以及速度动作优势函数分支，分别对应当前状态的值函数、当前状态下待选滚转动作的优势函数和待选速度动作的优势函数，具体每条分支包含1层全连接层(FC4～FC6)，均使用linear激活函数；聚合层将状态值函数分支输出分别与所述滚转动作优势函数分支输出、速度动作优势函数分支的输出聚合，生成滚转动作的Q值和速度动作的Q值。

本实施例中，聚合操作具体为：

其中，Q_r(s^e,M,a_r)为当前状态下各个待选滚转动作的Q值；Q_v(s^e,M,a_v)为当前状态下各个待选速度动作的Q值；V(s^e,M)为状态值函数分支输出的当前状态的值函数；A(s^e,M,a_r)为滚转动作优势函数分支输出的当前状态下各个待选滚转动作的优势值；A(s^e,M,a_v)为速度动作优势函数分支输出的当前状态下各个待选速度动作的优势值；

表示待选滚转动作集合的大小；

表示待选速度动作集合的大小；在本实施例中，

按上述构建D3QN网络后，初始化D3QN主网络以及目标网络的参数，即构建得到所需的D3QN网络，再使用当前僚机与环境进行交互过程中的僚机与长机之间联合状态、局部地图等历史经验数据更新D3QN网络，训练形成并保存所需D3QN模型。

本实施例步骤S1、步骤S2中构成当前僚机与联合状态之间的联合状态时，具体由僚机获取自身状态信息ξ_e:＝(x_e,y_e,ψ_e,φ_e,v_e)和长机状态信息ξ_l:＝(x_l,y_l,ψ_l,φ_l,v_l)，构成当前僚机-长机联合状态

式中：

表示长机相对于当前僚机的平面位置；

表示当前僚机与长机航向角之差；

和

分别表示长机的期望滚转角和速度，即其即将执行的滚转角和速度设定值。

本实施例步骤S1、步骤S2中，进行态势评估的步骤包括：

确定无人机前部、尾部危险区域的几何形状均为圆形；

评估僚机危险区域内的碰撞风险：根据无人机前部危险区域的半径R_f、机间最小安全距离R_s以及位置p与僚机之间的距离评估单架僚机周围的位置p处的碰撞风险C_p；

由计算得到的单架僚机的碰撞风险C_p计算所有僚机的综合碰撞风险值C_s；

将计算得到的综合碰撞风险值C_s映射到灰度颜色空间，构建得到以当前僚机为中心的局部地图。

危险区域的几何结构与无人机的航向和速度有关，如图3所示，无人机危险区域包含两个子区域：前部和尾部，本实施例确定无人机尾部部危险区域的几何形状为圆形，其半径R_r等于机间最小安全距离R_s，无人机前部危险区域的几何形状为椭圆形，其半径R_f定义为：

其中，v表示无人机的飞行速度；Δt表示比例因子。

碰撞风险的大小与危险区域到僚机的距离有关，为评估僚机危险区域内的碰撞风险，记僚机周围的任一位置p处的碰撞风险为C_p，本实施例中僚机周围的位置p处的碰撞风险C_p具体按下式(5)计算得到：

其中，D为位置p与僚机之间的距离。

假设不同僚机引发的碰撞风险是独立的，则多架僚机引发的综合碰撞风险为：

其中，

表示第j架僚机在p处的引发的碰撞风险。

本实施例中，构建局部地图时，具体按照下式(7)将综合碰撞风险值C_s映射到灰度颜色空间：

通过上述过程，构建得到以当前僚机为中心的局部地图M，局部地图的尺寸具体为L×L×1，其中L＝2×R_c+1，其中地图中颜色越深，对应的碰撞风险越大。

本实施例构建局部地图时仅需邻近僚机的状态信息，无需全局信息，且局部地图的尺寸与邻近僚机的数量无关，使得基于深度强化学习的群集控制策略具有良好的可扩展性，能够适应不同规模的固定翼无人机编队的群集控制。

本实施例步骤S1、步骤S2中，联合状态、局部地图输入至D3QN网络模型得到各僚机的控制指令输出的步骤具体包括：

Q函数评估：D3QN模型以当前僚机与长机之间的联合状态和局部地图为输入，评估当前状态下所有待选滚转动作和速度动作的Q值；

设定值计算：根据选取的滚转动作a_r和速度动作a_v，分别按照下式计算僚机的滚转角设定值；

以及计算速度设定值：

得到僚机的滚转角设定值以及速度设定值后，分别将长机和僚机的控制指令输入无人机运动学模型，即可得到长机和僚机下一时刻的状态，进而可再得到下一时刻的当前僚机-长机联合状态

同时可由态势评估模型构建得到下一时刻的局部地图

僚机通过控制自身的滚转角和速度，即可实现跟随长机编队飞行同时避免机间碰撞。

本实施例中，步骤S1中训练形成D3QN模型时，历史交互数据具体包括当前时刻的联合状态和局部地图、执行的滚转和速度动作、执行动作获取的回报值以及下一时刻的联合状态和局部地图，执行动作获取的回报值具体通过计算用于使得僚机与长机保持合适距离的跟随奖励、以及用于避免当前僚机同邻近僚机之间距离过近发生碰撞的碰撞惩罚，并根据跟随奖励、碰撞惩罚计算得到。上述计算执行动作获取的回报值时，不仅考虑了跟随奖励，同时还考虑了碰撞惩罚，可以使得僚机与长机保持合适距离，避免当前僚机同邻近僚机之间距离过近发生碰撞。

本实施例中，具体按照下式计算回报值r：

其中，r_l表示跟随奖励，且满足：

表示碰撞惩罚且满足：

其中，参数d₁和d₂分别为以长机为中心的圆环的内半径和外半径(以长机为中心，如图1所示)；ρ表示当前僚机与长机之间的距离；D_j表示当前僚机与邻近僚机j之间的距离；ω是调整因子。

按照上述过程获取到经验数据

其中，s^e为当前僚机-长机联合状态，M为局部地图，滚转动作a_r和速度动作a_v为执行动作，r为执行滚转动作a_r和速度动作a_v获取的回报值，

分别为执行滚转动作a_r和速度动作a_v后的联合状态、局部地图，保存经验数据

到经验池，再从经验池中进行随机批次采样

更新D3QN的网络参数。

本实施例中具体可应用Adam算法根据损失函数批次更新主网络参数：

损失函数L定义为：

其中

式中：α表示学习率，N_b表示Batch size，0≤γ≤1代表折扣因子，具体可取α＝0.0001，N_b＝32，γ＝0.95。

再对目标网络参数进行软更新，即朝向主网络参数θ缓慢更新目标网络参数θ^-：

θ^-←τθ+(1-τ)θ^- (16)

式中：τ为软更新率，具体取τ＝0.01。

如图1、2所示，本实施例进行固定翼无人机群集控制时，具体在离线训练阶段，首先建立具有随机性的固定翼无人机运动学模型、竞争双重Q网络(D3QN)；持续采集智能体与环境进行交互的历史经验，并存储到经验池中；从经验池中进行随机批次采样，不断更新D3QN的网络参数，最终形成并保存D3QN网络模型；在线执行阶段时，僚机通过获取自身状态信息以及获取长机和邻近僚机的状态信息，构成当前僚机-长机联合状态，并进行态势评估，构建以当前僚机为中心的局部地图；将联合状态以及局部地图输入至训练后的D3QN网络模型，评估当前状态下所有待选动作的Q值，动作选择策略选择最大Q值所对应的动作，确定无人机的滚转角速度设定值，重复上述过程，直至完成飞行任务。

以下以在Leader-Follower拓扑进行固定翼无人机分布式群集控制的具体应用实例为例对本发明的方法进行进一步说明。

如图4所示，本实施例编队由一架长机和n架僚机组成，僚机在某一固定高度层飞行，控制量为滚转角和速度；每一架僚机均配备有自驾仪，用于完成滚转和速度指令的底层闭环控制；长机根据操控员的控制执行飞行，并通过无线通信链路将其状态信息广播给僚机；僚机可通过传感器获取自身状态信息以及最大探测距离R_c内的邻近僚机的状态信息。各个僚机采用本发明上述方法自主实时选择其滚转动作和速度动作，以维持僚机与长机之间的合理位置关系(d₁＜ρ＜d₂)，并避免机间碰撞，详细步骤为：

步骤S1：离线训练

步骤S1-1：按照式(1)建立具有随机性的固定翼无人机运动学模型，用以生成无人机的状态数据。

步骤S1-2、构建竞争双重Q网络的主网络和目标网络。

步骤S1-2-1：构建D3QN主网络。

如图6所示，本实施例中D3QN网络由两个子网络组成：特征提取网络和竞争网络，特征提取网络的输入当前僚机-长机联合状态s^e和局部地图M，输入维度分别为84×84×1和9；特征提取网络包括1层全连接层(FC1)、卷积神经网络(Conv1～Conv4)、1层压平层(Flatten)和1层合并层(Merge)，全连接层(FC1)的网络节点数取128，使用ReLU激活函数，其表达式为：f(x)＝max(0,x)，用于处理当前僚机-长机联合状态；卷积网络包含4层卷积层(Conv1～Conv4)，用于提取局部地图的特征向量；其中，第一卷积层(Conv1)包含32个卷积核，卷积核尺寸为8×8，步长为4；第二卷积层(Conv2)包含64个卷积核，卷积核尺寸为4×4，步长为2；第三卷积层(Conv3)包含64个卷积核，卷积核尺寸为3×3，步长为1；第四卷积层(Conv4)包含128个卷积核，卷积核尺寸为7×7，步长为1；卷积层均使用ReLU激活函数，填充操作均选择VALID模式；合并层(Merge)用于融合全连接层(FC1)的输出和卷积神经网络的输出，生成系统联合状态的特征输出；所述竞争网络包含2层全连接层(FC2和FC3)、1层拆分层(Split)、1个分支结构、1层聚合层(Aggregate)；全连接层FC2和FC3的网络节点数分别取256和128，均使用ReLU激活函数；拆分层(Split)将全连接层FC2和FC3的输出拆分等相同维度(即64)的两部分，分别用于评估状态值函数和动作优势函数；分支结构包括3个分支：状态值函数分支、滚转动作优势函数分支、速度动作优势函数分支，每条分支包含1层全连接层(FC4～FC6)，均使用linear激活函数，其表达式为：f(x)＝x，网络节点数分别取1、3和3，分别对应当前状态的值函数、当前状态下3个待选滚转动作的优势函数和3个待选速度动作的优势函数；聚合层(Aggregate)将状态值函数分支输出分别与滚转动作优势函数分支输出和速度动作优势函数分支输出聚合，生成滚转动作的Q值和速度动作的Q值。

步骤S1-2-2：构建D3QN目标网络，目标网络与主网络结构完全相同。

步骤S1-2-3：随机初始化D3QN主网络的参数θ和目标网络参数θ^-。

步骤S1-3、持续采集并保存当前僚机与环境进行交互的历史经验。

步骤S1-3-1、建立容量为N的数据缓存区D用于保存历史经验，初始化为空，具体N＝100000。

步骤S1-3-2、进行态势评估。

步骤S1-3-2-1、按照式(3)构建当前僚机-长机联合状态：

步骤S1-3-2-2、僚机获取自身状态信息及邻近僚机状态信息，包括邻近僚机的位置、航向和速度。

步骤S1-3-2-3、按照式(4)确定无人机前部危险区域的几何形状，其中R_s＝5m，Δt＝1s。

步骤S1-3-2-4、按照式(5)计算僚机周围的任一位置p处的碰撞风险为C_p以及按照式(6)计算综合碰撞风险C_s。

步骤S1-3-2-5、按照式(7)将综合碰撞风险值映射到灰度颜色空间，其中R_c＝50m，G_max＝1，G_min＝0。在具体应用实施例中得到的典型局部地图如图5所示。

步骤S1-3-3、基于D3QN的Q函数评估：以当前僚机-长机联合状态和局部地图为输入，D3QN评估当前状态下所有待选滚转动作和速度动作的Q值；候选滚转动作集合为{-10°,0,+10°}，候选速度动作集合为{-1,0,+1}。

步骤S1-3-4、动作选择：以ε的概率选择最大Q值所对应的滚转动作a_r和速度动作a_v，以1-ε的概率从滚转动作集合{-10°,0,+10°}和速度动作集合{-1,0,+1}中随机滚转动作a_r和速度动作a_v；长机的滚转动作和速度动作随机产生以增加系统的随机性；具体可配置探索率ε在200000时间步内从1线性降低到0.1。

步骤S1-3-5、根据动作选择策略的输出，即僚机的滚转动作a_r和速度动作a_v，按照式(8)、(9)计算僚机的滚转角设定值。

步骤S1-3-6、分别将长机和僚机的控制指令输入随机无人机运动学模型，得到长机和僚机下一时刻的状态，进而得到下一时刻的当前僚机-长机联合状态

以及进行态势评估得到下一时刻的局部地图

步骤S1-3-7、根据式(10)～(12)计算回报函数值r，其中d₁＝40，d₂＝65，ω＝10。

步骤S1-4、从经验池中进行随机批次采样

批次更新D3QN的网络参数。

步骤S1-4-1、应用Adam算法按照式(13)～(15)根据损失函数批次更新主网络参数。

步骤S1-4-2、对目标网络参数进行软更新，按照式(16)朝向主网络参数θ缓慢更新目标网络参数θ^-。

步骤S1-5、当训练回合数达到预设条件时，结束更新过程，并保存D3QN网络模型参数。

步骤S2、在线执行。

步骤S2-1、态势评估：僚机通过机载传感器获取自身及邻近僚机状态信息，通过通信链路获取长机状态信息，根据式(3)生成当前僚机-长机联合状态，根据态势评估模型构建得到以当前僚机为中心的局部地图；

步骤S2-2、基于D3QN的Q函数评估：载入训练后的D3QN网络模型参数，以当前僚机-长机联合状态和局部地图为输入，评估当前状态下所有待选滚转动作和速度动作的Q值；

步骤S2-3、动作选择：根据最大Q值所对应的动作，确定僚机的滚转动作和速度动作；进而根据式(8)和式(9)得出滚转角设定值和速度设定值；D3QN网络模型和动作选择策略运行在僚机机载处理器上，输出的滚转和速度设定值每隔指定时间更新一次；

步骤S2-4、僚机的自驾仪根据其滚转角和速度设定值，由PID控制器完成底层闭环控制；

步骤S2-5、重复上述过程，直至完成飞行任务。

本实施例中行任务具体共持续180s，得到的飞行轨迹图如图7所示，其中ρ表示僚机与长机之间的距离，mindis表示僚机之间的最小机间距离，从图7中可以看出，采用本发明上述控制方法，5架僚机(Follower 1～Follower 5)均能稳定地自主跟随长机飞行，同时避免机间碰撞。即本发明基于深度强化学习的固定翼无人机群集控制避障方法，应用深度强化学习算法在连续状态空间内解决Leader-Follower拓扑下的固定翼无人机的群集控制与碰撞避免问题，不需要依赖于环境模型，也不需要环境的先验知识，即可实现僚机跟随长机自主飞行并避免机间碰撞。

本实施例基于深度强化学习的固定翼无人机群集控制避碰装置，步骤包括：

模型训练模块，用于建立无人机运动学模型以及用于输出无人机控制指令的D3QN，并使用各僚机与环境交互过程中的历史交互数据更新D3QN的网络参数，训练形成D3QN模型，其中交互过程中，由各僚机分别获取自身及长机的状态信息构成当前僚机与长机之间的联合状态，根据获取的僚机自身及邻近僚机的状态信息进行态势评估以评估无人机间的碰撞风险，并构建得到以当前僚机为中心的局部地图，将联合状态、局部地图输入至D3QN模型得到各僚机的控制指令输出，并根据无人机运动学模型得到长机以及僚机的下一时刻状态；

在线执行模块，用于各僚机分别实时获取自身及长机的状态信息构成当前僚机与长机之间联合状态，根据实时获取的僚机自身及邻近僚机的状态信息进行所述态势评估，实时构建得到以当前僚机为中心的局部地图；将实时获取的联合状态、局部地图输入至D3QN网络模型得到各僚机的控制指令输出，控制指令包括滚转角控制指令、速度控制指令。

本实施例基于深度强化学习的固定翼无人机群集控制避碰装置与上述基于深度强化学习的固定翼无人机群集控制避碰方法为一一对应，在此不再一一赘述。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于深度强化学习的固定翼无人机群集控制避碰方法，其特征在于，步骤包括：

S1.模型训练：建立无人机运动学模型以及用于输出无人机控制指令的D3QN，并使用各僚机与环境交互过程中的历史交互数据更新所述D3QN的网络参数，训练形成D3QN模型，其中所述交互过程中，由各僚机分别获取自身及长机的状态信息构成当前僚机与长机之间的联合状态，根据获取的僚机自身及邻近僚机的状态进行态势评估以评估无人机间的碰撞风险，并构建得到以当前僚机为中心的局部地图；将所述联合状态、局部地图输入至所述D3QN模型得到各僚机的控制指令输出，并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态；

S2.在线执行：各僚机分别实时获取自身及长机的状态信息构成当前僚机与长机之间联合状态，根据实时获取的僚机自身及邻近僚机的状态信息进行所述态势评估，实时构建得到以当前僚机为中心的局部地图；将实时构建的所述联合状态、局部地图输入至所述D3QN网络模型得到各僚机的控制指令输出，所述控制指令包括滚转角控制指令、速度控制指令。

2.根据权利要求1所述的基于深度强化学习的固定翼无人机群集控制避碰方法，其特征在于，所述进行态势评估的步骤包括：

3.根据权利要求2所述的基于深度强化学习的固定翼无人机群集控制避碰方法，其特征在于，所述僚机周围的位置p处的碰撞风险C_p具体按下式计算得到：

其中，D为位置p与僚机之间的距离。

4.根据权利要求2所述的基于深度强化学习的固定翼无人机群集控制避碰方法，其特征在于，构建所述局部地图时，具体按照下式将所述综合碰撞风险值C_s映射到灰度颜色空间：

5.根据权利要求1所述的基于深度强化学习的固定翼无人机群集控制避碰方法，其特征在于，所述步骤S1中构建D3QN时包括构建结构相同的D3QN主网络以及D3QN目标网络，所述D3QN主网络、D3QN目标网络均分别包括特征提取网络和竞争网络，所述特征提取网络包括1层全连接层FC1、卷积神经网络和1层合并层，所述全连接层用于处理当前僚机与长机之间的联合状态，所述卷积神经网络用于提取所述局部地图的特征向量，所述合并层用于融合所述全连接层的输出和所述卷积神经网络的输出，生成最终的系统联合状态的特征输出；

6.根据权利要求1～5中任意一项所述的基于深度强化学习的固定翼无人机群集控制避碰方法，其特征在于，所述联合状态、局部地图输入至所述D3QN网络模型得到各僚机的控制指令输出的步骤包括：

以及计算速度设定值：

7.根据权利要求1～5中任意一项所述的基于深度强化学习的固定翼无人机群集控制避碰方法，其特征在于，所述步骤S1中训练形成D3QN模型时，所述历史交互数据包括当前时刻的联合状态和局部地图、执行的滚转和速度动作、执行动作获取的回报值以及下一时刻的联合状态和局部地图，所述执行动作获取的回报值具体通过计算用于使得僚机与长机保持合适距离的跟随奖励、以及用于避免当前僚机同邻近僚机之间距离过近发生碰撞的碰撞惩罚，并根据所述跟随奖励、碰撞惩罚计算得到。

8.根据权利要求7所述的基于深度强化学习的固定翼无人机群集控制避碰方法，其特征在于，具体按照下式计算所述回报值r：

其中，r_l表示跟随奖励，且满足：

表示碰撞惩罚且满足：

9.根据权利要求1所述的基于深度强化学习的固定翼无人机群集控制避碰方法，其特征在于，所述步骤S1中无人机运动学模型具体采用四自由度模型，并引入包括滚转和/或空速子状态的随机项形成具有随机性的固定翼无人机运动学模型；建立的所述固定翼无人机运动学模型具体为：

10.一种基于深度强化学习的固定翼无人机群集控制避碰装置，其特征在于，步骤包括：