CN111880567B

CN111880567B - 基于深度强化学习的固定翼无人机编队协调控制方法及装置

Info

Publication number: CN111880567B
Application number: CN202010761029.7A
Authority: CN
Inventors: 闫超; 王菖; 相晓嘉; 吴立珍; 黄依新; 兰珍; 刘兴宇
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2022-09-16
Anticipated expiration: 2040-07-31
Also published as: CN111880567A

Abstract

本发明公开一种基于深度强化学习的固定翼无人机编队协调控制方法及装置，该方法步骤包括：步骤S1、建立固定翼无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络，并使用各僚机与环境之间交互过程中的历史数据更新执行器网络、评价器网络的网络参数，训练形成执行器网络模型；步骤S2、各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态，载入训练后形成的执行器网络模型，由执行器网络模型根据联合状态输出各僚机的控制指令。本发明能够应用深度强化学习实现固定翼无人机编队协调控制并避免机间碰撞，具有实现方法简单、实时性及可扩展性强、控制灵活等优点。

Description

基于深度强化学习的固定翼无人机编队协调控制方法及装置

技术领域

本发明涉及固定翼无人机控制技术领域，尤其涉及一种基于深度强化学习的固定翼无人机编队协调控制方法及装置。

背景技术

近年来，随着传感器技术、无线通信技术以及智能控制技术的不断发展与进步，无人机在军事和民用领域得到了广泛的应用，并取得了显著的成功。但受限于单体无人机的固有缺陷，其在复杂环境下执行多样化任务仍面临较大困难。在可以预见的未来，无人机编队将是执行任务的主要载体。因此，无人机编队协调控制技术已成为无人机系统技术领域的一个研究热点。

针对无人机编队协调控制，现有技术中通常是采用如模型预测控制、一致性理论等实现，通常需要平台和扰动的精确模型来进行控制率设计，但是这一模型通常具有复杂、时变、非线性的特点，加之传感器误差、环境扰动等随机因素的影响，往往难以精确建模，这严重限制了传统分析方法的适用范围。作为一种代替方法，应用无模型强化学习方法可以解决上述问题，但是现有技术中基于强化学习的无人机编队协调控制解决方案主要是针对旋翼无人机，而与旋翼机相比，由于固定翼无人机的飞行运动学的非完整约束，固定翼无人机编队协调控制会更加复杂。

有从业者提出使用深度强化学习方法解决固定翼无人机编队协调控制问题，但是该研究尚处于比较初级的阶段，均是通过简化问题来实现，一般都是假设无人机在不高度层飞行，不考虑无人机之间的碰撞问题，但在某些实际应用场景中，无人机编队需要在相同高度层飞行以遂行任务，避免机间碰撞是一个必须考虑的问题，而采用上述简化的控制方式来实现固定翼无人机编队控制，无人机之间会存在碰撞风险。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、实时性及可扩展性强、控制灵活的基于深度强化学习的固定翼无人机编队协调控制方法及装置，能够利用深度强化学习实现固定翼无人机编队协调控制，避免无人机之间的碰撞。

为解决上述技术问题，本发明提出的技术方案为：

一种基于深度强化学习的固定翼无人机编队协调控制方法，步骤包括：

步骤S1、训练阶段：建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络，并使用各僚机与环境交互过程中的历史数据更新所述执行器网络、评价器网络的网络参数，训练形成执行器网络模型，所述历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态，所述交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态，由所述执行器网络根据所述联合状态输出各僚机的控制指令，并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态；

步骤S2、执行阶段：执行飞行任务时，各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态，载入训练后形成的所述执行器网络模型，由所述执行器网络模型根据实时获取的所述联合状态输出各僚机的控制指令，所述控制指令包括滚转角控制指令、速度控制指令。

进一步的，所述步骤S1中无人机运动学模型具体采用四自由度模型，并引入包括滚转和/或空速子状态的随机项形成具有随机性的固定翼无人机运动学模型。

进一步的，建立的所述固定翼无人机运动学模型具体为：

其中，(x,y)表示无人机的x-y平面位置；ψ表示无人机的航向角；φ表示无人机的滚转角；α_g表示重力加速度；η_x,η_x,η_ψ分别为扰动项且分别服从正态分布以用于模拟无人机位置和航向因环境因素而产生的扰动；f(φ,φ_d)为期望滚转角φ_d与实际滚转角φ之间的函数关系，f(v,v_d)为期望空速v_d与实际空速v之间的函数关系。

进一步的，所述执行器网络包括一个动作选择网络以将输入状态映射到输出动作，所述动作选择网络包括2层全连接层和1层输出层，其中全连接层均使用ReLU激活函数，输出层使用tanh激活函数将执行器输出值控制在(-1,+1)之间，线性放大后映射到滚转动作空间和速度动作空间；所述评价器网络包括一个价值评估网络以将输入状态映射到所述输入状态对应的价值函数，其中所述价值评估网络包括2层全连接层和1层输出层，其中全连接层均使用ReLU激活函数，输出层使用linear激活函数；

所述执行器网络以及所述评价器网络均还包括一个特征提取网络，所述特征提取网络分别包括1层全连接层、1个嵌入模块和1层合并层；所述嵌入模块包括1层填充层、2层卷积层、2个SE模块、2层转置层、1层最大池化层以及1层压平层；所述SE模块包括1层全局平均池化层、2层全连接层及1层缩放层，所述全连接层用于处理长机与僚机之间的联合状态，所述嵌入模块用于处理僚机与其他僚机之间的联合状态，所述合并层用于融合全连接层和嵌入模块的输出，生成所述联合状态输出。

进一步的，所述嵌入模块包括1层填充层、2层卷积层、2个SE模块、2层转置层、1层最大池化层和1层压平层；所述SE模块包括1层缩放层、1层全局平均池化层以及2层全连接层，其中2层卷积层中第一卷积层的卷积核尺寸与当前僚机、其他僚机之间联合状态的维度相等，所述2个SE模块中第一SE模块的第一全连接层的网络节点数等于所述第一卷积层的卷积核数的1/4，第二全连接层的网络节点数等于所述第一卷积层的卷积核数；所述2层卷积层中第二卷积层的卷积核尺寸与所述第一卷积层的卷积核数相等，所述2个SE模块中第二SE模块的第一全连接层的网络节点数等于所示第二卷积层的卷积核数的1/4，第二全连接层的网络节点数等于所述第二卷积层的卷积核数。

进一步的，所述步骤S1中训练形成执行器网络模型的具体步骤为：

步骤S1-1、由执行器对应动作选择策略，使用深度神经网络将输入状态映射到输出动作，以及由评价器对应价值函数，使用深度神经网络将输入状态映射到该状态的价值函数，分别建立得到执行器网络和评价器网络，并随机初始化网络参数；

步骤S1-2、持续采集僚机与环境交互过程中的历史数据并存储到经验数据池中，所述历史数据包括四元组(s_t,a_t,r_t,s_t+1)，其中s_t为当前状态、a_t为执行动作、r_t为执行动作a_t获取的回报，s_t+1为执行动作a_t后达到的状态；

步骤S1-3、从所述经验数据池中进行随机批次采样，并使用采样到的数据不断更新所述执行器网络和评价器网络的网络参数；

步骤S1-4、当训练次数达到预设条件时，结束训练过程，最终形成并保存所述执行器网络模型。

进一步的，所述构成联合特征的步骤包括：

步骤SA1、各僚机获取长机状态信息ξ_l:＝(x_l,y_l,ψ_l,φ_l,v_l)以及自身状态信息ξ_e:＝(x_e,y_e,ψ_e,φ_e,v_e)，构建得到当前僚机与长机之间的联合状态s^e：

其中式中：

表示当前僚机相对于长机的平面位置；

表示当前僚机与长机航向角之差；

和

分别表示长机的期望滚转角和速度；

步骤SA2、各僚机获取自身的状态信息ξ_e:＝(x_e,y_e,ψ_e,φ_e,v_e)及除当前僚机外其他僚机的状态信息

构建得到当前僚机与其他僚机之间的联合状态s^o：

其中，

表示其他僚机相对于当前僚机的平面位置；

表示其他僚机与当前僚机航向角之差；

步骤SA3、根据当前僚机与长机之间的联合状态s^e和当前僚机与其他僚机之间的联合状态s^o构建得到最终的系统联合状态s:＝(s^e,s^o)输出。

进一步的，具体按照下式计算执行动作获取的回报值r：

其中，r_l表示跟随奖励且满足：

表示碰撞惩罚，且满足：

其中，参数d₁和d₂分别为圆环的内半径和外半径，ρ表示当前僚机与长机之间的距离，

表示当前僚机与其他僚机j之间的距离，d_e表示当前僚机到圆环的距离，ω和m是调整因子。

进一步的，根据所述联合状态输出各僚机的控制指令时，具体根据执行器的输出选择僚机的滚转指令a_r和速度指令a_v，并根据所述滚转指令a_r和速度指令a_v分别计算僚机的滚转角设定值：

以及速度设定值：

其中，φ表示僚机当前滚转角，a_max表示僚机滚转角单步最大变化量，r_bd表示僚机滚转角的边界值。

一种基于深度强化学习的固定翼无人机编队协调控制装置，包括：

训练模块，用于建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络，并使用各僚机与环境交互过程中的历史数据更新所述执行器网络、评价器网络的网络参数，训练形成执行器网络模型，所述交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态，由所述执行器网络根据所述联合状态输出各僚机的控制指令，并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态；

执行模块，用于执行飞行任务时，各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态，载入训练后形成的所述执行器网络模型，由所述执行器网络模型根据实时获取的所述联合状态输出各僚机的控制指令，所述控制指令包括滚转角控制指令、速度控制指令。

与现有技术相比，本发明的优点在于：

1、本发明通过在无人机多机编队协同遂行任务中，由僚机感知长机信息的基础上，还获取其他僚机的状态信息构成联合状态，基于该联合状态进行深度强化学习算法的训练，能够获得具有避撞功能的控制策略，在连续状态空间和动作空间内解决了Leader-Follower拓扑下的固定翼无人机编队协调控制问题，从而不需依赖平台和环境的精确模型，即可使得僚机能够准确跟随长机自主飞行并避免机间碰撞，大大减小了无人机操控员的工作负担，提高控制效率及灵活性。

2、本发明进一步通过考虑无人机在恒定高度飞行的特性，采用简化的四自由度模型描述无人机运动学模型，同时考虑环境扰动的影响，在滚转、空速等各个子状态引入随机项，能够模拟真实世界的随机性，弥补简化模型带来的精度损失，建立得到具有随机性的固定翼无人机运动学模型，使得在该环境中训练得到的控制策略能够直接迁移到真实世界中，同时在无人机模型中还设置了速度响应函数，允许无人机改变自身速度飞行，更加贴近现实情况，从而构建得到更为精确的固定翼无人机运动学模型。

3、本发明进一步通过构建执行器网络、评价器网络，同时配置特征提取网络中的嵌入模块，能够将可变维度的系统状态输入编码为固定维度的特征向量，使得基于深度强化学习的协调控制策略具有良好的可扩展性，能够适用于不同规模的无人机编队，且具备注意力机制，能够更好的提取当前僚机与其他僚机交互的特征。

4、本发明进一步通过回报函数计算动作获取的回报值时，不仅考虑了跟随奖励，同时考虑了碰撞惩罚，结合强化学习算法的训练，能够进一步得到具有更佳避撞性能的控制策略，提高固定翼无人机编队协调控制中的避障安全性。

附图说明

图1是本实施例基于深度强化学习的固定翼无人机编队协调控制方法的实现流程示意图。

图2是本发明在具体应用实施例中长机与僚机期望位置关系的示意图。

图3是本发明在具体应用实施例中执行器网络和评价器网络的结构示意图。

图4是本发明在具体应用实施例中嵌入模块的结构示意图。

图5是本发明在具体应用实施例中得到的长机与各僚机的飞行轨迹图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1所示，本实施例基于深度强化学习的固定翼无人机编队协调控制方法的步骤包括：

步骤S1、训练阶段：建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络，并使用各僚机与环境交互过程中的历史数据更新执行器网络、评价器网络的网络参数，训练形成执行器网络模型，历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态，交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态，由执行器网络根据联合状态输出各僚机的控制指令，并根据无人机运动学模型得到长机以及僚机的下一时刻状态；

步骤S2、执行阶段：执行飞行任务时，各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态，载入训练后形成的执行器网络模型，由执行器网络模型根据实时获取的联合状态输出各僚机的控制指令，控制指令包括滚转角控制指令、速度控制指令。

本实施例通过在无人机多机编队协同遂行任务中，由僚机感知长机信息的基础上，还获取其他僚机的状态信息构成联合状态，基于该联合状态进行深度强化学习算法的训练，能够获得具有避撞功能的控制策略，在连续状态空间和动作空间内解决了Leader-Follower拓扑下的固定翼无人机编队协调控制问题，从而不需依赖平台和环境的精确模型，即可使得僚机能够准确跟随长机自主飞行并避免机间碰撞，大大减小了无人机操控员的工作负担，提高控制效率及灵活性。

考虑无人机在恒定高度飞行，本实施例步骤S1中无人机运动学模型具体采用简化四自由度模型，并引入包括滚转、空速等子状态的随机项形成具有随机性的固定翼无人机运动学模型，建立的固定翼无人机运动学模型具体为：

其中，(x,y)表示无人机的x-y平面位置；ψ表示无人机的航向角；φ表示无人机的滚转角；α_g表示重力加速度；η_x,η_x,η_ψ分别为扰动项且分别服从正态分布以用于模拟无人机位置和航向因环境因素而产生的扰动，扰动项(η_x,η_x,η_ψ)具体分别服从正态分布

和

f(φ,φ_d)为期望滚转角φ_d(输入)与实际滚转角φ(响应)之间的函数关系，f(v,v_d)为期望空速v_d(输入)与实际空速v(响应)之间的函数关系。

本实施例通过考虑无人机在恒定高度飞行的特性，采用简化的四自由度模型描述无人机运动学模型，同时考虑环境扰动的影响，在滚转、空速等各个子状态引入随机项，能够模拟真实世界的随机性，弥补简化模型带来的精度损失，建立得到具有随机性的固定翼无人机运动学模型，使得在该环境中训练得到的控制策略能够直接迁移到真实世界中，同时在无人机模型中还设置了速度响应函数，允许无人机改变自身速度飞行，更加贴近现实情况，从而构建得到更为精确的固定翼无人机运动学模型。

本实施例具体使用二阶系统模拟无人机滚转和速度通道的动态响应，并引入随机项使得该响应更具真实性。假定滚转通道二阶系统的无阻尼自然频率

和阻尼系数ζ_r分别服从正态分布

和

速度通道二阶系统的无阻尼自然频率

和阻尼系数ζ_v分别服从正态分布

和

所需参数可根据自驾仪滚转和速度指令的实际响应情况确定。

本实施例中，执行器输出具体为2维，分别表示速度和滚转角，执行器网络具体包括一个动作选择网络以将输入状态映射到输出动作，动作选择网络包括2层全连接层(Dense)和1层输出层，其中全连接层均使用ReLU激活函数，其表达式为：f(x)＝max(0,x)，输出层使用tanh激活函数，其表达式为f(x)＝(e^x-e^-x)/(e^x+e^-x)，以确保将执行器输出值控制在(-1,+1)之间，线性放大后即可映射到滚转动作空间和速度动作空间；执行器网络还包括一个特征提取网络，该特征提取网络包含1层全连接层(Dense)、1个嵌入模块(Embedding)和1层合并层(Merge)，其中全连接层用于处理长机与僚机的联合状态s^e，嵌入模块用于处理当前僚机与其他僚机之间的联合状态s^o，合并层用于融合全连接层和嵌入模块的输出，生成联合状态的特征输出。

本实施例中，评价器网络具体包括一个价值评估网络以将输入状态映射到输入状态对应的价值函数，其中价值评估网络包括2层全连接层和1层输出层，其中全连接层均使用ReLU激活函数，输出层使用linear激活函数；评价器网络还包括一个特征提取网络，特征提取网络的结构与上述执行器网络中特征提取网络的结构相同。

本实施例中，嵌入(Embedding)模块具体包括1层填充层(Padding)、2层卷积层(Conv)、2个SE模块(SE Block)、2层转置层(Permute)、1层最大池化层(MaxPooling)和1层压平层(Flatten)；SE模块包括1层缩放层(Multiply)、1层全局平均池化层(GlobalAvgPooling)以及2层全连接层(Dense)，其中2层卷积层中第一卷积层的卷积核尺寸与当前僚机、其他僚机之间联合状态的维度相等，激活函数为ReLU；2个SE模块中第一SE模块的第一全连接层的网络节点数等于第一卷积层的卷积核数的1/4，使用ReLU激活函数，第二全连接层的网络节点数等于第一卷积层的卷积核数，使用Sigmoid激活函数，其表达式为：f(x)＝1/(1+e^-x)；2层卷积层中第二卷积层的卷积核尺寸与第一卷积层的卷积核数相等，激活函数为ReLU，2个SE模块中第二SE模块的第一全连接层的网络节点数等于所示第二卷积层的卷积核数的1/4，使用ReLU激活函数，第二全连接层的网络节点数等于第二卷积层的卷积核数，使用Sigmoid激活函数。

无人机编队在实际执行任务时规模会根据执行任务的不同有所变化，本实施例通过采用上述构建的执行器网络、评价器网络，执行器和评价器网络的输入是可变的，可以适应不同的无人机规模，同时配置特征提取网络中的嵌入模块的填充层和池化层形成上述结构，能够将可变维度的联合状态输入编码为固定维度的特征向量，使得基于深度强化学习的协调控制策略具有良好的可扩展性，能够适用于不同规模的无人机编队，即可实现可变规模无人机编队的协调控制，且嵌入模块还设置有2个SE模块，该模块具备注意力(attention)机制，能够更好的提取当前僚机与其他僚机交互的特征。

本实施例中，步骤S1中训练形成执行器网络模型的具体步骤为：

步骤S1-1、由执行器对应动作选择策略，使用深度神经网络将输入状态映射到输出动作(Act^*(s|θ^A):S→A，其中Act^*(s|θ^A)代表输入状态s的最佳动作)，以及由评价器对应价值函数，使用深度神经网络将输入状态映射到该状态的价值函数

分别建立得到执行器网络和评价器网络，并随机初始化执行器网络参数θ^A和评价器网络参数θ^V；

步骤S1-2、持续采集僚机与环境之间交互过程中的历史数据并存储到经验数据池中，历史数据具体包括四元组(s_t,a_t,r_t,s_t+1)，其中s_t为当前状态、a_t为执行动作、r_t为执行动作a_t获取的回报，s_t+1为执行动作a_t后达到的状态，即历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态；

步骤S1-3、从经验数据池中进行随机批次采样，并使用采样到的数据不断更新执行器网络和评价器网络的网络参数；

步骤S1-4、当训练次数达到预设条件时，结束训练过程，最终形成并保存执行器网络模型。

上述交互过程具体为：长机的滚转指令和速度指令随机产生以增加系统的随机性；智能体获取长机、其他僚机及自身的状态信息，组成联合状态信息输入到执行器中，使用高斯探索策略根据执行器输出选取僚机的滚转指令和速度指令；分别将长机和僚机的控制指令输入随机无人机运动学模型，得到长机和僚机下一时刻的状态，并计算其对应的回报函数值。

上述步骤S1-3中更新网络参数时，具体可使用应用Adam算法不断更新执行器和评价器的网络参数，所有样本均会用于更新评价器网络的参数，但只有TD误差为正的样本才会使执行器的网络参数发生改变，通过经验回放方式可以去除经验数据的相关性，提高了经验的利用率。

本实施例上述通过获取僚机与环境之间交互过程中的交互数据，构成联合特征的步骤包括：

其中式中：

表示当前僚机相对于长机的平面位置；

表示当前僚机与长机航向角之差；

和

分别表示长机的期望滚转角和速度；

构建得到当前僚机与其他僚机之间的联合状态s^o：

其中，

表示其他僚机相对于当前僚机的平面位置；

表示其他僚机与当前僚机航向角之差；

本实施例中，具体按照下式(6)计算执行动作获取的回报值r：

其中，r_l表示跟随奖励且满足：

表示碰撞惩罚，且满足：

本实施例通过采用上述回报函数计算动作获取的回报值，不仅考虑了跟随奖励，同时考虑了碰撞惩罚，结合强化学习算法的训练，能够进一步得到具有更佳避撞性能的控制策略，提高固定翼无人机编队协调控制中的避障安全性。

本实施例中，上述根据联合状态输出各僚机的控制指令时，具体根据执行器的输出选择僚机的滚转指令a_r和速度指令a_v，并根据滚转指令a_r和速度指令a_v分别计算僚机的滚转角设定值：

以及速度设定值：

本实施例中，执行阶段的具体实现步骤如下：

步骤S2-1、僚机获取自身位置和姿态信息以及长机及其他僚机的位置和姿态信息，分别构建当前僚机与长机之间的联合状态和当前僚机与其他僚机之间的联合状态，进而组成系统联合状态；

步骤S2-2、载入训练后的执行器网络模型，执行器根据当前系统联合状态输出僚机最佳滚转和速度指令；执行器网络模型运行在僚机机载处理器上，输出的滚转和速度指令每隔指定时间更新一次，长机滚转角和速度设定值可具体设定；

步骤S2-3、长机和僚机根据各自的滚转角和速度设定值，由PID控制器完成底层闭环控制。

步骤S2-4、重复上述过程，直至完成飞行任务。

上述步骤S2-1构成联合状态、步骤S2-2执行器根据当前系统联合状态输出僚机最佳滚转和速度指令的具体步骤分别与步骤S1中前述对应步骤相同，具体如上所述。

以下以在Leader-Follower拓扑进行固定翼无人机编队协调控制的具体应用实例为例来进一步说明本发明的方法。

如图2所示，本实施例编队具体由一架长机和n架僚机组成，僚机在某一固定高度层飞行，控制量为滚转角和速度，每一架僚机均配备有自驾仪，用于完成滚转和速度指令的底层闭环控制；长机根据操控员的控制指令飞行，并通过无线通信链路将其状态信息广播给僚机；僚机可通过传感器获取自身状态信息，并通过无线通信链路获取长机及其他僚机的状态信息。为实现无人机编队的协调控制，各个僚机需要自主实时选择其滚转角和速度指令，以维持僚机与长机之间的合理位置关系(d₁＜ρ＜d₂)，并避免机间碰撞。

本实施例控制分为训练阶段和执行阶段两个阶段：

训练阶段主要包括以下步骤：

步骤I-1：如上式(1)构建建立具有随机性的固定翼无人机运动学模型。

步骤I-2：建立执行器深度神经网络和评价器深度神经网络。

步骤I-2-1：建立执行器深度神经网络。

本实施例中，执行器对应动作选择策略，使用深度神经网络将输入状态分别映射到输出动作(Act^*(s|θ^A):S→A，其中Act^*(s|θ^A)代表输入状态s的最佳动作)。如图3所示，本实施例中执行器深度神经网络包括特征提取网络和动作选择网络，其中动作选择网络包括2层全连接层(Dense)和1层输出层，网络节点数分别取256、256和2；全连接层均使用ReLU激活函数；输出层使用tanh激活函数；特征提取网络包含1层全连接层(Dense)、1个嵌入模块(Embedding)和1层合并层(Merge)，全连接层的网络节点数取64，用于处理长机与僚机的联合状态s^e，嵌入模块用于处理僚机与其他僚机之间的联合状态s^o，合并层用于融合全连接层和嵌入模块的输出，生成系统联合状态的特征输出；

如图4所示，嵌入模块具体包含1层填充层(Padding)、2层卷积层(Conv)、2个SE模块(SE Block)、2层转置层(Permute)、1层最大池化层(MaxPooling)和1层压平层(Flatten)；所述SE模块包括1层缩放层(Multiply)、1层全局平均池化层(GlobalAvgPooling)、2层全连接层(Dense)，其中第一卷积层的卷积核数量取32，卷积核尺寸与当前僚机-其他僚机联合状态s^o的维度相等，即1×5，步长取1，激活函数为ReLU；第一SE模块的第一全连接层的网络节点数等于第一卷积层卷积核数的1/4，即8，使用ReLU激活函数，第二全连接层的网络节点数等于第一卷积层卷积核数，即32，使用Sigmoid激活函数；第二卷积层的卷积核数量取64，卷积核尺寸与第一卷积层卷积核数相等，即1×32，步长取1，激活函数为ReLU；第二SE模块的第一全连接层的网络节点数等于第二卷积层卷积核数的1/4，即16，使用ReLU激活函数，第二全连接层的网络节点数等于第二卷积层卷积核数，即64，使用Sigmoid激活函数。

步骤I-2-2：建立评价器深度神经网络。

本实施例中，评价器对应价值函数，同样使用深度神经网络将输入状态映射到该状态的价值函数

如图3所示，评价器深度神经网络具体包括包含特征提取网络和价值评估网络，价值评估网络包括2层全连接层(Dense)和1层输出层，网络节点数分别取256、256和1；全连接层均使用ReLU激活函数，输出层使用linear激活函数，评价器的特征提取网络与执行器的特征提取网络的结构相同。

步骤I-2-3：随机初始化执行器的网络参数θ^A和评价器的网络参数θ^V。

步骤I-3：持续采集智能体(僚机)与环境进行交互的历史数据，并存储到经验池中，其中历史数据为四元组(s_t,a_t,r_t,s_t+1)，交互过程具体步骤为：

步骤I-3-1：建立容量为N的数据缓存区D用于保存历史经验，初始化为空，具体N＝100000。

步骤I-3-2：智能体获取长机状态信息ξ_l:＝(x_l,y_l,ψ_l,φ_l,v_l)及自身状态信息ξ_e:＝(x_e,y_e,ψ_e,φ_e,v_e)，按照式(2)、(3)构建当前僚机-长机联合状态

步骤I-3-3：智能体获取自身状态信息ξ_e:＝(x_e,y_e,ψ_e,φ_e,v_e)及其他僚机状态信息

按照式(4)、(5)构建当前僚机-其他僚机联合状态

步骤I-3-4：根据当前僚机-长机联合状态s^e和当前僚机-其他僚机联合状态s^o，构建系统联合状态s:＝(s^e,s^o)，该系统联合状态的维度是不固定的，其尺寸与僚机数量n有关。

步骤I-3-5：采用高斯探索策略根据执行器输出Act(s|θ^A)选择僚机的动作：

其中，σ为探索参数，表示高斯分布的宽度。在本实施例中，动作空间是二维的：a:＝(a_r,a_v)，分别表示滚转指令和速度指令；探索参数σ在500000时间步内从0.5线性衰减到0.05。

步骤I-3-6：根据高斯探索策略的输出，即僚机的滚转指令a_r和速度指令a_v，分别按照式(9)、(10)计算僚机的滚转角设定值。

步骤I-3-7：根据长机和僚机的滚转角和速度设定值，由无人机运动学模型计算得出下一时刻的状态；进而由式(2)、(3)构建下一时刻系统联合状态s'，按照式(6)、(7)、(8)计算回报函数值r。

步骤I-3-8：将历史经验数据(s,a,r,s′)保存到经验池D中，若经验池中数据的数量大于经验池的最大容量，则使用最新的经验数据取代最早的经验数据。

步骤I-4：从经验池中进行随机批次采样，应用Adam算法不断更新执行器的网络参数θ^A和评价器的网络参数θ^V。本实施例中Batch size具体设置为64，损失函数类型为MSE。

评价器网络的更新方式具体为：

V_t+1(s_t|θ^V)＝V_t(s_t|θ^V)+β·δ_t (12)

其中：

δ_t＝r_t+γ·V_t(s_t+1|θ^V)-V_t(s_t|θ^V) (13)

在损失函数||δ_t||²的指引下，评价器的网络参数θ^V通过梯度下降算法进行优化：

式中：0≤γ≤1代表折扣因子；0≤β≤1表示评价器的学习率；δ_t表示当前的TD误差。

本实施例中具体γ＝0.95，β＝0.0001。

与评价器网络的更新方式不同，执行器网络仅在TD误差大于零时进行更新，其更新规则具体为：

当TD误差大于零时，在损失函数||a_t-Act_t(s_t|θ^A)||²的指引下，Actor的网络参数θ^A亦通过梯度下降算法进行优化：

式中：0≤α≤1表示执行器的学习率。本实施例中具体α＝0.001。

步骤I-5：当训练回合数达到期望次数时，结束上述交互过程，并保存执行器网络的模型参数。本实施例中具体共进行30000回合的训练，每回合60时间步。

执行阶段的主要实现步骤如下：

步骤II-1：智能体通过传感器获取自身位置和姿态信息，并通过通信链路获取长机及其他僚机的位置和姿态信息，分别根据式(2)～(5)构建当前僚机-长机联合状态和当前僚机-其他僚机联合状态，进而组成系统联合状态。

步骤II-2：载入训练后的执行器网络模型，执行器根据当前系统联合状态输出僚机最佳滚转和速度指令，进而根据式(9)、(10)得出滚转角设定值和速度设定值；执行器网络模型运行在僚机机载处理器上，输出的滚转和速度指令每隔1s更新一次；长机滚转角和速度设定值由操控员给出。

步骤II-3：长机和僚机的自驾仪分别根据各自的滚转角和速度设定值，由PID控制器完成底层闭环控制。

步骤II-4：重复上述过程，直至完成飞行任务。

本实施例中行任务具体共持续180s，所得飞行轨迹图如图5所示，其中，ρ表示僚机与长机之间的距离，mindis表示僚机之间的最小机间距离；从图5中可以看出，无论长机平直飞行还是盘旋机动，5架僚机(Follower 1～Follower 5)均能稳定地跟随长机组成编队协同飞行，同时避免机间碰撞。即本发明固定翼无人机编队协调控制方法，基于执行器-评价器强化学习框架，不依赖平台和环境的精确模型，能够解决解决Leader-Follower拓扑下的固定翼无人机编队协调控制问题，避免无人机之间的碰撞问题。

本实施例基于深度强化学习的固定翼无人机编队协调控制装置，包括：

训练模块，用于建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络，并使用各僚机与环境交互过程中的历史数据更新执行器网络、评价器网络的网络参数，训练形成执行器网络模型，历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态，交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态，由执行器网络根据联合状态输出各僚机最佳的控制指令，并根据无人机运动学模型得到长机以及僚机的下一时刻状态；

执行模块，用于执行飞行任务时，各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态，载入训练后形成的执行器网络模型，由执行器网络模型根据实时获取的联合状态输出各僚机的控制指令，控制指令包括滚转角控制指令、速度控制指令。

本实施例上述执行器网络、评价器网络如图3所示，执行器网络、评价器网络中嵌入模块如图4所示，具体原理如上述所述。

本实施例基于深度强化学习的固定翼无人机编队协调控制装置与上述基于深度强化学习的固定翼无人机编队协调控制方法为一一对应，在此不再一一赘述。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于深度强化学习的固定翼无人机编队协调控制方法，其特征在于，步骤包括：

步骤S2、执行阶段：执行飞行任务时，各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态，载入训练后形成的所述执行器网络模型，由所述执行器网络模型根据实时获取的所述联合状态输出各僚机的控制指令，所述控制指令包括滚转角控制指令、速度控制指令；

所述执行器网络包括一个动作选择网络以将输入状态映射到输出动作，所述动作选择网络包括2层全连接层和1层输出层，其中全连接层均使用ReLU激活函数，输出层使用tanh激活函数将执行器输出值控制在(-1,+1)之间，线性放大后映射到滚转动作空间和速度动作空间；所述评价器网络包括一个价值评估网络以将输入状态映射到所述输入状态对应的价值函数，其中所述价值评估网络包括2层全连接层和1层输出层，其中全连接层均使用ReLU激活函数，输出层使用linear激活函数；

2.根据权利要求1所述的基于深度强化学习的固定翼无人机编队协调控制方法，其特征在于，所述步骤S1中无人机运动学模型具体采用四自由度模型，并引入包括滚转和/或空速子状态的随机项形成具有随机性的固定翼无人机运动学模型。

3.根据权利要求2所述的基于深度强化学习的固定翼无人机编队协调控制方法，其特征在于，建立的所述固定翼无人机运动学模型具体为：

其中，(x,y)表示无人机的x-y平面位置；ψ表示无人机的航向角；φ表示无人机的滚转角；α_g表示重力加速度；η_x,η_y,η_ψ分别为扰动项且分别服从正态分布以用于模拟无人机位置和航向因环境因素而产生的扰动；f(φ,φ_d)为期望滚转角φ_d与实际滚转角φ之间的函数关系，f(v,v_d)为期望空速v_d与实际空速v之间的函数关系。

4.根据权利要求1所述的基于深度强化学习的固定翼无人机编队协调控制方法，其特征在于，所述嵌入模块包括1层填充层、2层卷积层、2个SE模块、2层转置层、1层最大池化层和1层压平层；所述SE模块包括1层缩放层、1层全局平均池化层以及2层全连接层，其中2层卷积层中第一卷积层的卷积核尺寸与当前僚机、其他僚机之间联合状态的维度相等，所述2个SE模块中第一SE模块的第一全连接层的网络节点数等于所述第一卷积层的卷积核数的1/4，第二全连接层的网络节点数等于所述第一卷积层的卷积核数；所述2层卷积层中第二卷积层的卷积核尺寸与所述第一卷积层的卷积核数相等，所述2个SE模块中第二SE模块的第一全连接层的网络节点数等于所述第二卷积层的卷积核数的1/4，第二全连接层的网络节点数等于所述第二卷积层的卷积核数。

5.根据权利要求1所述的基于深度强化学习的固定翼无人机编队协调控制方法，其特征在于，所述步骤S1中训练形成执行器网络模型的具体步骤为：

6.根据权利要求1～5中任意一项所述的基于深度强化学习的固定翼无人机编队协调控制方法，其特征在于，所述构成联合状态的步骤包括：

其中式中：

表示当前僚机相对于长机的平面位置；

表示当前僚机与长机航向角之差；

和

分别表示长机的期望滚转角和速度；

构建得到当前僚机与其他僚机之间的联合状态s^o：

其中，

表示其他僚机相对于当前僚机的平面位置；

表示其他僚机与当前僚机航向角之差；

7.根据权利要求1～5中任意一项所述的基于深度强化学习的固定翼无人机编队协调控制方法，其特征在于，具体按照下式计算执行动作获取的回报值r：

其中，r_l表示跟随奖励且满足：

表示碰撞惩罚，且满足：

8.根据权利要求1～5中任意一项所述的基于深度强化学习的固定翼无人机编队协调控制方法，其特征在于，根据所述联合状态输出各僚机的控制指令时，具体根据执行器的输出选择僚机的滚转指令a_r和速度指令a_v，并根据所述滚转指令a_r和速度指令a_v分别计算僚机的滚转角设定值：

以及速度设定值：

9.一种基于深度强化学习的固定翼无人机编队协调控制装置，其特征在于，包括：

训练模块，用于建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络，并使用各僚机与环境交互过程中的历史数据更新所述执行器网络、评价器网络的网络参数，训练形成执行器网络模型，所述历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态，所述交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态，由所述执行器网络根据所述联合状态输出各僚机的控制指令，并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态；

执行模块，用于执行飞行任务时，各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态，载入训练后形成的所述执行器网络模型，由所述执行器网络模型根据实时获取的所述联合状态输出各僚机的控制指令，所述控制指令包括滚转角控制指令、速度控制指令；