CN116820134A

CN116820134A - 基于深度强化学习的无人机编队保持控制方法

Info

Publication number: CN116820134A
Application number: CN202310895418.2A
Authority: CN
Inventors: 焦瑞豪; 王建岭; 王永波; 吴晗; 郝铭慧
Original assignee: Zhiyang Innovation Technology Co Ltd
Current assignee: Zhiyang Innovation Technology Co Ltd
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-09-29

Abstract

本发明公开了一种基于深度强化学习的无人机编队保持控制方法，属于智能控制和无人机技术的交叉领域，所述方法包括：建立无人机飞行动力学模型和运动学模型，并根据虚拟长机拓扑结构，设计无人机相对运动模型；设计无人机的增稳‑姿态‑航迹的PID串级控制器；设计每一个无人机的MAPPO智能体的马尔科夫决策过程，包括状态空间、动作空间、奖励函数和终止条件；设计适用于符合该马尔可夫决策模型的神经网络结构；对设计的MAPPO智能体进行训练，智能体的输入为状态空间，输出为无人机控制指令，PID串级控制器接收该控制指令进而操控无人机完成编队保持。本发明提高了无人机编队队形保持控制的智能性、鲁棒性、准确性。

Description

基于深度强化学习的无人机编队保持控制方法

技术领域

本发明涉及智能控制和无人机技术的交叉领域，特别是指一种基于深度强化学习的无人机编队保持控制方法。

背景技术

针对无人机编队保持航迹指令生成的传统方法，如PID(比例积分微分)算法，参数往往需要手动整定，且鲁棒性较差，其控制性能在面对复杂环境或剧烈扰动时往往会急剧下降甚至失效；模型预测控制等方法一般需要被控对象和扰动等环境要素的精确模型来进行控制律和制导律的设计，但是这些模型通常是非线性且极为复杂的，基于此，建立一个精准的控制模型往往较为困难，而且模型的鲁棒性也难以得到保证。在这种背景下，善于处理复杂随机性的深度强化学习方法受到了多方关注。

深度强化学习是机器学习领域的重要组成部分，是处理序贯决策问题的有力手段，目前被广泛应用于机器人、游戏、金融、交通等领域。使用深度强化学习训练往往需要建立其马尔科夫决策过程，其目标是使智能体在与训练场景的互动过程中，在累计奖励函数值的指导下，训练得到一种最佳策略，该策略使智能体具备根据状态空间变化合理选取动作的能力。在使用该算法进行训练时，能够主动在环境模型中设计较强的随机性，可以解决复杂随机环境中的决策控制问题，适用于无人机编队航迹指令生成问题的解决。

发明内容

本发明要解决的技术问题是提供一种基于深度强化学习的无人机编队保持控制方法，以提高无人机编队队形保持控制的智能性、鲁棒性、准确性。

为解决上述技术问题，本发明提供技术方案如下：

一种基于深度强化学习的无人机编队保持控制方法，包括：

步骤1：根据飞行力学原理，建立无人机飞行动力学模型和运动学模型，并根据虚拟长机拓扑结构，设计无人机相对运动模型；

步骤2：根据PID控制原理，设计无人机的增稳-姿态-航迹的PID串级控制器；

步骤3：设计每一个无人机的MAPPO智能体的马尔科夫决策过程，包括状态空间、动作空间、奖励函数和终止条件；

步骤4：设计适用于符合该马尔可夫决策模型的神经网络结构；

步骤5：对设计的MAPPO智能体进行训练，智能体的输入为状态空间，输出为无人机控制指令，PID串级控制器接收该控制指令进而操控无人机完成编队保持。

本发明具有以下有益效果：

本发明的基于深度强化学习的无人机编队保持控制方法，是将独立学习范式与近端策略优化算法相结合，进而处理多机编队(多智能体)问题。首先，根据飞行力学原理建立无人机单机的运动学和动力学方程并基于虚拟长机结构建立无人机编队相对运动模型；进一步，设计各无人机的PID串级控制器，使无人机能准确快速地跟踪指令；然后，根据MAPPO算法设计编队队形保持过程的马尔科夫决策模型、神经网络结构和算法流程，使多无人机可以在风扰等复杂环境中保持编队，同时，将俯仰角速度等无人机关键状态量加入状态空间，使该方法的控制精度获得了极大的提高。本发明利用深度强化学习算法建立复杂环境与无人机指令之间的映射关系，提高了无人机编队队形保持控制的智能性、鲁棒性、准确性。

附图说明

图1为应用本发明方法的无人机编队系统的结构示意图；

图2为本发明中编队坐标系及无人机相对位置关系示意图；

图3为本发明中无人机飞行控制即PID串级控制器的结构示意图；

图4为本发明中神经网络结构示意图；

图5为本发明中编队系统训练框图；

图6为本发明中训练过程奖励曲线图；

图7为本发明中实例编队队形图；

图8为本发明中编队队形保持航迹图；

图9为本发明中编队队形保持误差曲线图；

图10为本发明中编队队形保持无人机V、γ、χ响应图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明基于深度强化学习算法，利用强化学习技术的反复训练机制提升智能体的经验，利用深度神经网络拟合环境状态与指令输出之间的关系，从而使得智能体能够指导无人机进行编队保持飞行。

本发明提供一种基于深度强化学习的无人机编队保持控制方法，如图1-10所示，包括：

本步骤中，无人机的质心动力学方程可以为：

以及转动动力学方程可以为：

式中，m为无人机质量，g为当地重力加速度，Ix,Iy,Iz,Izx为无人机的惯性矩和惯性积；(u,v,w)为无人机速度V在机体轴上的投影，(p,q,r)为无人机角速度ω在机体轴上的投影；θ和φ分别为无人机俯仰角和滚转角。(Tx,Ty,Tz)为无人机发动机推力，(X,Y,Z)为气动力，(L,M,N)为气动力矩。

本步骤中，将无人机的质心速度在地面坐标系上投影，得到无人机的质心运动学方程：

和无人机绕质心的转动运动学方程：

式中，ψ为偏航角。

为方便定位空间位置，作为一种可选的实施例，所述步骤1可以包括：

设计编队坐标系来描述无人机自身相对于虚拟长机的位置，以虚拟长机为坐标原点，建立编队坐标系O_fx_fy_fz_f，O_fx_f轴的正方向为虚拟长机的速度在水平面O_gx_gy_g内的投影方向，O_fz_f轴垂直水平面向下，O_fy_f位于水平面内由右手定则确定，如图2所示；

图2中，坐标系O_gx_gy_gz_g为地面坐标系，用以定义无人机的速度V与航向(χ，γ)，其中，γ为飞机地速矢量V与水平面O_gx_gy_g之间的夹角，χ为飞机地速矢量V在水平面上的投影与O_gx_g轴的夹角；O_i为无人机i(i＝1，2，…，m)实际的位置，O_di为无人机i的期望编队位置；各无人机的速度和航向为(V_i，χ_i，γ_i)，(x_if，y_if，z_if)为无人机i在编队坐标系下的相对位置坐标；理想编队队形表示为{(x_dif，y_dif，z_dif)，i＝1,2，...，m}，m为编队无人机总数。

以三机编队队形为例，可以采用如下矩阵F_j表示编队队形，其中j表示任务类型。

本步骤中，基于PID控制方法，设计了无人机的增稳、姿态和航迹跟踪控制器，使无人机可以有效地跟踪制导指令。

PID串级控制器可以采用本领域技术人员容易想到的各种结构，为提高控制准确度，优选的，如图3所示，PID串级控制器可以包括依次连接的航迹PID控制器、姿态角PID控制器、操纵舵面和无人机(小)扰动线化运动模型，其中：

航迹PID控制器的输入端用于接收制导指令，输出端用于输出姿态角指令至姿态角PID控制器；

姿态角PID控制器的输出端用于输出舵面指令至操纵舵面；

无人机扰动线化运动模型的输出端输出速度、位置信号且该速度、位置信号反馈至航迹PID控制器的输入端，无人机扰动线化运动模型还输出姿态角信号反馈至姿态角PID控制器的输入端，无人机扰动线化运动模型还输出姿态角角速度信号经增稳器反馈至操纵舵面的输入端。

本步骤中，建立智能体的马尔可夫决策过程，包括状态空间、动作空间、奖励函数和终止条件，使得当前环境可以使用其他算法验证。MAPPO(Multi-agent Proximal PolicyOptimization，多智能体近端策略优化)智能体具体可以为IMAPPO(Independence Multi-agent Proximal Policy Optimization，独立学习范式下的多智能体近端策略优化)智能体。状态空间S可以包含无人机距离其理想编队位置的三轴偏差(x_eif，y_eif，z_eif)及其微分和积分、无人机基本状态量具体来说，状态空间S的表达式可以为：

式中，(x_eif,y_eif,z_eif)为无人机i(i＝1，2，3…)与期望位置的误差；为x_eif的微分项，∫x_eif为x_eif的积分项，/>为y_eif的微分项，∫y_eif为y_eif的积分项，/>为z_eif的微分项，∫z_eif为z_eif的积分项，Vi为无人机i的速度，θ_i为无人机i的俯仰角，α_i为无人机i的迎角，q_i为无人机i的俯仰角速度，β_i为无人机i的侧滑角，r_i为无人机i的偏航角速度，φ_i为无人机i的滚转角。

以上各变量在输入智能体观测之前可以均经过归一化处理，其目的是防止某个观测量量级过大影响智能体梯度下降过程的效率。

本步骤中，动作空间可以包括离散的速度、航迹偏角和航迹倾角指令，表达式分别为：

ΔV＝[-ΔV_min，0，ΔV_max]m/s

Δχ＝[-Δχ_max，0，Δχ_max]°

Δγ＝[-Δγ_max，0，Δγ_max]°。

需要说明的是，ΔV指令的上下限可以不同，这主要取决于无人机的推力阻力特性也即加减速性能。另外，动作库中的三类指令仅包含最大正值、最小负值和0三种指令，这是由于无人机的各种复杂指令均可由这三种基本指令组合而成，而较少的动作更有利于智能体的快速学习。事实上，大量的测试表明，更多的动作并不会对控制精度的提升产生显著的影响，反而会降低训练的速度与效率。

本步骤中，奖励函数的表达式可以为：

式中，R_f为队形保持过程中的总回报函数；r_i(i＝1,2,...,5)为不同的回报函数；k_i(i＝1,2,3)为奖励系数，设置为负值，具体可以为较小的负值。

本步骤中，第i个智能体单回合训练的终止条件可以为：

式中，[V_min,V_max]为设定的无人机速度范围；d_set为无人机与理想编队位置误差的上限。

本步骤中，神经网络结构优选采用Actor-Critic(演员-评论家)框架，其中，如表1-2所示，Actor网络可以由3层全连接层(Fully-Connected，FC)构成，隐含节点数分别为128、128和27，前两层均使用ReLU激活函数，最后一层使用Softmax激活函数，最终输出为动作库中各动作在当前策略下的概率分布；Critic网络可以包含4层全连接层，前3层的隐含节点数分别为128、128和128，均使用ReLU激活函数，最后一层的网络节点数为1，输出值为当前状态的值函数。

表1 Actor网络结构

表2 Critic网络结构

Actor-Critic框架的具体结构如图4所示。

步骤5：对设计的MAPPO智能体进行训练，智能体的输入为状态空间，输出为无人机(僚机)控制指令，PID串级控制器接收该控制指令进而操控无人机完成编队保持。

本步骤中，训练基于MAPPO算法的编队指令生成器，同时输出速度指令、航迹偏角指令、航迹倾角指令，使得无人机(僚机)在智能体的引导下跟随虚拟长机并维持预设队形，以实现无人机群智能化编队。

作为一种可选的实施例，本步骤5可以包括：

如图5所示，无人机群根据与理想编队位置的三轴误差及自身的状态、位置等信息，形成联合状态空间S_N(s₁,s₂,…,s_N)输入到MAPPO智能体中，智能体根据各Actor网络的输出选取输入给无人机(僚机)的控制指令A_N(a₁,a₂,…,a_N)，在智能体动作器的策略训练过程中采用策略梯度法，并引入基于裁剪的目标函数用于保证策略的快速收敛性。

作为另一种可选的实施例，本步骤5还可以包括：

将无人机(僚机)的控制指令A_N(a₁,a₂,…,a_N)输入各无人机的PID串级控制器进而生成舵面及油门指令输入无人机运动模型，得到无人机群下一时刻的状态；奖励函数值数组R_N(r₁,r₂,…,r_N)和下一步系统的状态S′_N＝(s′₁,s′₂,...,s′_N)也可以相应得到；交互过程中的元组数据(S_N,A_N,R_N,S′_N)均被相应保存到各智能体的经验池中；在每一时间步，从经验池中进行随机采样，批次更新MAPPO中各网络参数；当每回合的时间步达到预设值或训练强制结束条件触发时，结束该回合训练，继续进行下一回合的训练过程，直到训练回合数达到预设值或者奖励函数条件达到要求时训练完成。

本步骤中，通过离线训练方法得到可以用于无人机队形保持过程的神经网络，该神经网络可以通过本机和探测到的空域内临近飞机的飞行数据，解算出用于保持队形的飞机操纵指令。

综上，本发明的基于深度强化学习的无人机编队保持控制方法，是将独立学习范式与近端策略优化算法相结合，进而处理多机编队(多智能体)问题。首先，根据飞行力学原理建立无人机单机的运动学和动力学方程并基于虚拟长机结构建立无人机编队相对运动模型；进一步，设计各无人机的PID串级控制器，使无人机能准确快速地跟踪指令；然后，根据MAPPO算法设计编队队形保持过程的马尔科夫决策模型、神经网络结构和算法流程，使多无人机可以在风扰等复杂环境中保持编队，同时，将俯仰角速度等无人机关键状态量加入状态空间，使该方法的控制精度获得了极大的提高。本发明利用深度强化学习算法建立复杂环境与无人机指令之间的映射关系，提高了无人机编队队形保持控制的智能性、鲁棒性、准确性。

本发明基于多智能体近端策略优化算法和虚拟领航法设计无人机编队队形保持航迹引导律，从而实现了无人机编队几何形状的精确智能化控制，具备鲁棒性强、控制器参数由训练得到而非手动整定等优势。

此外，为对本发明的方法进行验证，步骤5之后还可以包括：

步骤6：基于数字虚拟飞行仿真计算方法，建立无人机编队队形保持场景，将离线建立的神经网络用于在线生成多架飞机的操纵指令，对无人机编队的队形保持的协调控制技术进行仿真验证。

a)参数设置

在Matlab2021/Simulink环境中构建MAPPO网络，其神经网络参数的迭代优化通过Adam(adaptive moment estimation，适应性矩估计)算法实现，使用GAE(Generalizedadvantage estimation，广义优势估计)方法估算优势值，MiniBatchsize(M)设为64，ExperinceHorizon(EH)设为200，ClipFactor(Cf)设为0.2，EntropyLossWeight(ELW)设为0.01，NumEpoch(K)设为3，GAEFactor(GAE_f)设为0.95，折扣因子γ设为0.99，Actor和Critic网络的学习率α_A、α_C分别设为0.0001和0.001。智能体数目N＝3，共进行3000回合的训练，即最大训练回合数N_max＝3000，每回合的仿真时间T为50s，仿真步长Ts为0.1s，每回合的最大时间步N_s＝500。训练过程中所需参数的经验值详见下表。

表3队形保持过程训练参数表

b)训练过程

由图6可知，三架无人机的奖励函数曲线趋势一致；在刚开始的阶段，三机的智能体均在反复试错，曲线在0附近震荡；在经过800回合左右的训练后，智能体的网络参数开始向好的方向更新，三机的奖励函数曲线快速上升；当训练进行到1500回合后，三机获取的奖励值趋于稳定，最终收敛在奖励值1450左右，收敛均值为1452。这意味着MAPPO算法能够有效且快速地学习策略，使神经网络参数逐渐收敛到最优值附近，从而有效地实现了多智能体针对该任务的训练过程。

c)数值仿真实验

完成b)的训练过程后，对智能体的指令生成策略进行数值仿真实验以验证效果。仿真环境中，无人机编队设置为一架虚拟长机和三架无人僚机(无人机)。每隔0.1s，MAPPO智能体输出概率最大的速度指令、航迹偏角指令、航迹倾角指令。具体演示验证的任务要求为：三架无人机在1500米高度以125km/h的速度飞行，初始时刻设置编队队形为间隔100米的“一”字型队形，如图7所示，队形矩阵为F_keep，仿真时长1000s，期间三架无人机须保持队形不变，飞行路线为盘旋上升。需要说明的是，将队形间隔设置为100米是为了更清晰地显示出无人机编队的形状，而不至于使三架无人机在图中重叠于一点。

编队飞行轨迹见图8，飞行过程中僚机与目标编队位置之间的误差的变化曲线情况见图9，虚拟长机与三架僚机的速度V、航迹偏角χ、航迹倾角γ的变化情况见图10。

图8直观地展示了基于MAPPO算法的指令生成策略的效果。黑色方框中的三个不同颜色/灰度的三角箭头指示同一时刻三机的位置。结合三机轨迹曲线可以看出，在整个盘旋上升的过程中，三架僚机均能够较好地保持队形并跟随虚拟长机飞行。

编队飞行过程中，无人机i(i＝1,2,3)的编队位置误差Er_i可表示为：

为了更清晰的显示误差变化情况，截取1000s仿真时间中的前50s的三机误差曲线如图9所示。

从图9中可以看出，在前50s的仿真时间内，三架无人机的编队误差基本维持在0.2m以内，控制精度较高。这里需要说明的是，本申请研究的编队保持过程并未有预设航迹输入到无人机中，无人机的目标编队位置(即空间中的一个点)需由长机的位置实时计算得出，因此，存在解算与跟随过程的时间延迟问题，不可避免地会存在编队位置误差。

从图10中可以看出，三架无人机的初始速度均为125km/h，由于内外侧无人机在盘旋过程中的曲率不同，因此必须对速度进行小幅度地调整以保持队形。2号无人机基本与虚拟长机的速度一致，外侧3号无人机的速度调整为略大于虚拟长机的速度，内侧1号无人机的速度调整为略小于虚拟长机的速度；航迹倾角指令也能保持与虚拟长机同步，始终保持在0.573°上下浮动，以实现无人机飞行高度的稳定变化；三架无人机的航迹偏角均能有效跟踪虚拟长机的航迹偏角，实现编队的航向一致性，实现盘旋的效果。三机智能体各自生成的航迹指令基本与虚拟长机的指令一致，间接证明了本申请所提方法在无人机编队队形保持方面的有效性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的无人机编队保持控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤1包括：

设计编队坐标系来描述无人机自身相对于虚拟长机的位置，以虚拟长机为坐标原点，建立编队坐标系O_fx_fy_fz_f，O_fx_f呼轴的正方向为虚拟长机的速度在水平面O_gx_gy_g内的投影方向，O_fz_f轴垂直水平面向下，O_fy_f位于水平面内由右手定则确定；

坐标系O_gx_gy_gz_g为地面坐标系，用以定义无人机的速度V与航向(χ，γ)，其中，γ为飞机地速矢量V与水平面O_gx_gy_g之间的夹角，χ为飞机地速矢量V在水平面上的投影与O_gx_g轴的夹角；O_i为无人机i实际的位置，O_di为无人机i的期望编队位置；各无人机的速度和航向为(V_i，χ_i，γ_i)，(x_if，y_if，z_if)为无人机i在编队坐标系下的相对位置坐标；理想编队队形表示为{(x_dif，y_dif，z_dif)，i＝1,2，...，m}，m为编队无人机总数。

3.根据权利要求1所述的方法，其特征在于，所述步骤2中，PID串级控制器包括依次连接的航迹PID控制器、姿态角PID控制器、操纵舵面和无人机扰动线化运动模型，其中：

所述航迹PID控制器的输入端用于接收制导指令，输出端用于输出姿态角指令至所述姿态角PID控制器；

所述姿态角PID控制器的输出端用于输出舵面指令至所述操纵舵面；

所述无人机扰动线化运动模型的输出端输出速度、位置信号且该速度、位置信号反馈至所述航迹PID控制器的输入端，所述无人机扰动线化运动模型还输出姿态角信号反馈至所述姿态角PID控制器的输入端，所述无人机扰动线化运动模型还输出姿态角角速度信号经增稳器反馈至所述操纵舵面的输入端。

4.根据权利要求1所述的方法，其特征在于，所述步骤3中，状态空间S的表达式为：

式中，(x_eif，y_eif，z_eif)为无人机i与期望位置的误差；为x_eif的微分项，∫x_eif为x_eif的积分项，/>为y_eif的微分项，∫y_eif为y_eif的积分项，/>为z_eif的微分项，∫z_eif为z_eif的积分项，V_i为无人机i的速度，θ_i为无人机i的俯仰角，α_i为无人机i的迎角，q_i为无人机i的俯仰角速度，β_i为无人机i的侧滑角，r_i为无人机i的偏航角速度，φ_i为无人机i的滚转角。

5.根据权利要求1所述的方法，其特征在于，所述步骤3中，动作空间包括离散的速度、航迹偏角和航迹倾角指令，表达式分别为：

ΔV＝[-ΔV_min，0，ΔV_max]m/s

Δχ＝[-Δχ_max，0，Δχ_max]°

Δγ＝[-Δγ_max，0，Δγ_max]°。

6.根据权利要求1所述的方法，其特征在于，所述步骤3中，奖励函数的表达式为：

式中，R_f为队形保持过程中的总回报函数；r_i(i＝1,2，...，5)为不同的回报函数；k_i(i＝1,2,3)为奖励系数，设置为负值。

7.根据权利要求1所述的方法，其特征在于，所述步骤3中，第i个智能体单回合训练的终止条件为：

式中，[V_min，V_max]为设定的无人机速度范围；d_set为无人机与理想编队位置误差的上限。

8.根据权利要求1所述的方法，其特征在于，所述步骤4中，神经网络结构采用Actor-Critic框架，其中，Actor网络由3层全连接层构成，隐含节点数分别为128、128和27，前两层均使用ReLU激活函数，最后一层使用Softmax激活函数，最终输出为动作库中各动作在当前策略下的概率分布；Critic网络包含4层全连接层，前3层的隐含节点数分别为128、128和128，均使用ReLU激活函数，最后一层的网络节点数为1，输出值为当前状态的值函数。

9.根据权利要求1所述的方法，其特征在于，所述步骤5包括：

无人机群根据与理想编队位置的三轴误差及自身的状态、位置信息，形成联合状态空间S_N(s₁，s₂，…，s_N)输入到MAPPO智能体中，智能体根据各Actor网络的输出选取输入给无人机的控制指令A_N(a₁,a₂,…，a_N)，在智能体动作器的策略训练过程中采用策略梯度法，并引入基于裁剪的目标函数用于保证策略的快速收敛性。

10.根据权利要求9所述的方法，其特征在于，所述步骤5还包括：

将无人机的控制指令A_N(a₁,a₂,…，a_N)输入各无人机的PID串级控制器进而生成舵面及油门指令输入无人机运动模型，得到无人机群下一时刻的状态；奖励函数值数组R_N(r₁，r₂，...，r_N)和下一步系统的状态S′_N＝(s′₁，s′₂，...，s′_N)也可以相应得到；交互过程中的元组数据(S_N，A_N，R_N，S′_N)均被相应保存到各智能体的经验池中；在每一时间步，从经验池中进行随机采样，批次更新MAPPO中各网络参数；当每回合的时间步达到预设值或训练强制结束条件触发时，结束该回合训练，继续进行下一回合的训练过程，直到训练回合数达到预设值或者奖励函数条件达到要求时训练完成。