CN119717536B

CN119717536B - 面向多无人机协同的动作鲁棒安全控制方法、系统及介质

Info

Publication number: CN119717536B
Application number: CN202411914178.7A
Authority: CN
Inventors: 魏大卫; 李珂莹; 张莫涵; 刘文瑾; 习宁; 马建峰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2024-12-24
Filing date: 2024-12-24
Publication date: 2025-09-23
Anticipated expiration: 2044-12-24
Also published as: CN119717536A

Abstract

一种面向多无人机协同的动作鲁棒安全控制方法、系统及介质，方法包括在环境不确定性因素的干扰下，基于构造的多无人机协同飞行仿真模型，对无人机集群进行训练来更新多无人机的飞行策略；同时建立经验池，更新多无人机状态；抽取经验池中的样本，计算多无人机协同控制鲁棒性的预期收益，并根据多无人机协同控制鲁棒性的预期收益更新批评家网络；构建基于动作鲁棒的深度强化学习算法模型，执行安全性梯度下降，以更新动作网络；更新目标策略网络；在目标策略网络更新后的状态下增加不同的扰动，观察不同动作扰动情况下的奖励值，若奖励值满足收敛性则保存当前策略，否则返回重新抽取经验池中的样本。本发明提高了多无人机协同控制的安全性。

Description

面向多无人机协同的动作鲁棒安全控制方法、系统及介质

技术领域

本发明涉及多无人机协同控制领域，具体涉及一种面向多无人机协同的动作鲁棒安全控制方法、系统及介质。

背景技术

近年来，随着多无人机技术在无线通信领域的应用越来越多，无人机在灾难救援、数据收集传输等领域的应用受到广泛关注。无人机具有灵活性高、机动性强以及可搭载多种设备等特点。通过协同控制策略，多无人机之间可以根据相关设备实时的数据变换和空间分布实现调度，以确保数据的时效性、通信覆盖范围的广泛性和公平性，以及无人机获取数据的高效性，同时多无人机还可以达到节能的目的。

现有技术中，基于深度强化学习的多无人机协同控制均需要训练和测试领域数据相一致。然而，在实际的复杂环境中，多无人机的行动领域会出现不确定性变量，使无人机产生与理想行动不同的动作误判，造成无人机行动错误的结果，为多无人机之间发生碰撞等安全问题埋下隐患。研究表明，可以通过分析无人机转移概率中的不确定性解决一个最大化最小化问题以降低最坏结果发生的可能性，从而提高多无人机协同控制的安全性。在这种情况下，需要一种在多无人机训练过程中进行动作扰动的方法，通过观察无人机的行动情况，获取无人机在面对环境的不确定性时各个动作出现的概率，以降低最危险动作的执行概率。

现有基于深度强化学习的方案在训练多无人机协同控制的时候，没有考虑到现实复杂环境的不确定性变量对多无人机做出正确动作判断进行干扰的情况，这将会导致无人机行动错误，甚至出现安全问题。例如文章《AoI-minimal UAV Crowdsensing by Model-based Graph Convolutional Reinforcement Learning》中提到的方法，然而这种方法忽略了多无人机在协同控制过程中可能有不确定性变量诱使无人机做出动作误判的情况。如公开号为CN118591030A的专利申请《无人集群网络拓扑结构智能决策方法、装置、设备及介质》提出一种无人集群网络拓扑结构智能决策方法，使无人机能够自主学习优化网络拓扑结构，允许无人机在复杂、动态的环境中根据实时反馈自我调整，根据组网需求自主移动集群中的节点位置，调整网络拓扑结构，增强网络拓扑的适应性。公开号为CN118502466A的专利申请《一种无人机集群的控制方法、系统、电子设备及存储介质》提出了一种无人机集群的控制方法，旨在合理规划无人机集群的飞行路径，提高执行任务的安全性。然而，以上方法在多无人机协同控制的训练阶段，均没有考虑现实复杂环境所存在的不确定性变量对无人机集群执行任务所做决策的干扰，诱使无人机做出错误决策，导致无人机集群在执行任务时出现安全隐患。公开号为CN116931543A的专利申请《一种面向多无人机数据收集的安全飞行控制方法、系统、设备及介质》提出了一种面向多无人机数据收集的安全飞行控制方法，解决了多无人机数据收集过程中面临的物理感知不一致的技术问题，具有提高多无人机飞行时数据收集的安全性和鲁棒性的特点。然而，该方案针对的是无人机状态不确定性问题，不能解决面对复杂环境中不确定性变量造成的多无人机动作受扰动的问题，安全性和鲁棒性不能得到保证。

发明内容

本发明的目的在于针对上述现有技术中的问题，提供一种面向多无人机协同的动作鲁棒安全控制方法、系统及介质，降低多无人机协同控制过程中出现的安全性问题。

为了实现上述目的，本发明有如下的技术方案：

第一方面，提供一种面向多无人机协同的动作鲁棒安全控制方法，包括：

获取多无人机的目标函数，构造多无人机协同飞行仿真模型；

初始化多无人机的状态，设定一个随机的动作探索过程，选择多无人机的初始动作，初始化策略网络和批评家网络；

在环境不确定性因素的干扰下，基于构造的多无人机协同飞行仿真模型，对无人机集群进行训练来更新多无人机的飞行策略；同时建立经验池，更新多无人机状态；

抽取经验池中的样本，计算多无人机协同控制鲁棒性的预期收益，并根据多无人机协同控制鲁棒性的预期收益更新批评家网络；

构建基于动作鲁棒的深度强化学习算法模型，执行安全性梯度下降，以更新动作网络；

更新目标策略网络；

在目标策略网络更新后的状态下增加不同的扰动，观察不同动作扰动情况下的奖励值，若奖励值满足收敛性则保存当前策略，否则返回重新抽取经验池中的样本。

作为一种优选的方案，所述多无人机的目标函数表达式如下：

式中，表示第架无人机距目标点的距离，表示所有无人机距目标点距离总和的最大值，N为无人机集群内无人机的总数量。

作为一种优选的方案，所述构造多无人机协同飞行仿真模型的步骤包括构造多无人机飞行模型、多无人机能耗模型、无人机集群多智能体深度确定性策略梯度算法MADDPG学习参数以及威胁模型；

构造多无人机飞行模型的方法包括：

构建无人机组以及地面用户组，假定无人机在恒定高度飞行，故无人机的位置坐标为；坐标与坐标的更新方式分别为：

式中，表示时隙，表示下一时隙，表示无人机u的飞行速度，表示无人机u飞行时的方向角；

构造多无人机能耗模型的方法包括：

无人机到地面的通信功率为，其中，是达到速率所需的能量；

无人机到地面用户的功率和感应功率分别为：

式中，是无人机的重量，是转子半径，是角速度，ρ是空气密度，表示压裂系数，表示转子盘面积，是叶片弦，是叶片的数量，是一个固定的常数；

地面用户的预期卸载延迟为，其中为任务大小；

构造无人机集群多智能体深度确定性策略梯度算法MADDPG学习参数包括：

设置多无人机的状态空间为S，动作空间为A，每个无人机的策略参数为：

，记为所有智能体的策略集合；

构造威胁模型的方法包括：

攻击者干扰无人机与地面用户组的通信，修改通信数据和指令，导致无人机采用不同的策略；假定无人机的攻击强度为，攻击强度越大，越大；

无人机受到攻击者干扰的策略为：

式中，为攻击者干扰后的混合策略，为无人机的策略，为攻击者的策略，P为转移概率。

作为一种优选的方案，所述初始化多无人机的状态，设定一个随机的动作探索过程，选择多无人机的初始动作，初始化策略网络和批评家网络的步骤包括：根据表达式选择无人机动作，式中，为无人机动作，为多智能体深度确定性策略梯度算法MADDPG中的确定性策略，为无人机的观测状态，为时隙时无人机的随机动作探索过程。

作为一种优选的方案，所述在环境不确定性因素的干扰下，基于构造的多无人机协同飞行仿真模型，对无人机集群进行训练来更新多无人机的飞行策略；同时建立经验池，更新多无人机状态的步骤包括：

无人机集群在飞行过程中遭遇环境不确定因素模型生成干扰；

通过计算系统的奖励，式中为任务大小，为角速度，为地面用户g的预期卸载延迟速率，为无人机的奖励值；

将写入经验池F中，为无人机在时隙的状态，为无人机在时隙执行的动作，为无人机在时隙的奖励，为无人机在下个时隙的状态；

经验池F包含记录了所有无人机的经验，表示多无人机群体在时隙的状态，表示多无人机群体在下个时隙的状态，表示无人机群体在时隙的动作，表示无人机群体在时隙的奖励；

使用下一时隙的新状态替换旧状态。

作为一种优选的方案，所述抽取经验池中的样本，计算多无人机协同控制鲁棒性的预期收益，并根据多无人机协同控制鲁棒性的预期收益更新批评家网络的步骤包括：

按下式计算多无人机的预期收益梯度：

式中，o为无人机的观察状态，x表示所有的无人机的观测结果，为多无人机的策略集合，为在确定性策略下无人机u的策略，为确定性策略下的集中行动值函数，包含所有的无人机动作和状态信息以估计期望回报，F为经验池；

根据预期收益更新批评家网络，最小化无人机飞行监测值与目标值之间的误差：

式中，为无人机u的损失函数，n为飞行监测值数据集大小，y为飞行监测真实值，为预测目标值，表示折扣因子，，为无人机u的奖励，为下一时隙的预测目标值。

作为一种优选的方案，所述构建基于动作鲁棒的深度强化学习算法模型，执行安全性梯度下降，以更新动作网络的步骤包括：

按如下方式构建基于动作鲁棒的深度强化学习算法模型：

记无人机初始状态为，在此状态下选择动作：

式中，为单个无人机当下的状态，为无人机的策略参数，为此刻对手的策略参数，为进行对抗性动作的概率，；

根据策略梯度网络更新无人机u在干扰下的策略参数：

为无人机u的策略参数，为对手的策略参数，为攻击者强度，为无人机集群状态，为无人机集中动作函数，为多无人机观测状态结果，为无人机u的确定性策略，为无人机在干扰下的混合策略；

根据梯度信息更新对手的策略参数，使对手的长期回报最小化：

式中，更新后对手的策略参数为，更新前的对手参数为，表示与其相应梯度的点积，该点积用于指导更新的方向和幅度，为当前对手的策略；

为批评家网络，在动作鲁棒的深度强化学习PR-MDP算法中更新批评家网络表示为：

式中，为无人机目标网络，为对手的目标网络，为无人机的奖励值，表示折扣因子，，为进行对抗性动作的概率，表示无人机在状态下的期望回报，表示对手在状态下的期望回报；

通过动作鲁棒的深度强化学习PR-MDP算法执行安全性梯度下降，以计算安全性梯度下降最小化来更新无人机和对手的动作网络，计算表达式如下：

。

作为一种优选的方案，所述更新目标策略网络的步骤中，根据表达式来更新目标策略网络；式中，表示当前策略；表示新的策略；是学习率，表示新参数对当前参数的权重；

在目标策略网络更新后的状态下增加不同的扰动时，设置扰动值分别为0、0.1、0.2和0.3；观察不同动作扰动情况下的奖励值波动，若奖励值波动小于0.1则满足收敛性。

第二方面，提供一种面向多无人机协同的动作鲁棒安全控制系统，包括：

仿真模型构建模块，用于获取多无人机的目标函数，构造多无人机协同飞行仿真模型；

初始化模块，用于初始化多无人机的状态，设定一个随机的动作探索过程，选择多无人机的初始动作，初始化策略网络和批评家网络；

飞行策略更新模块，用于在环境不确定性因素的干扰下，基于构造的多无人机协同飞行仿真模型，对无人机集群进行训练来更新多无人机的飞行策略；同时建立经验池，更新多无人机状态；

预期收益计算模块，用于抽取经验池中的样本，计算多无人机协同控制鲁棒性的预期收益，并根据多无人机协同控制鲁棒性的预期收益更新批评家网络；

动作网络更新模块，用于构建基于动作鲁棒的深度强化学习算法模型，执行安全性梯度下降，以更新动作网络；

目标策略网络更新模块，用于更新目标策略网络；

策略筛选模块，用于在目标策略网络更新后的状态下增加不同的扰动，观察不同动作扰动情况下的奖励值，若奖励值满足收敛性则保存当前策略，否则返回重新抽取经验池中的样本。

第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现所述面向多无人机协同的动作鲁棒安全控制方法。

相较于现有技术，本发明至少具有如下的有益效果：

本发明面向多无人机协同的动作鲁棒安全控制方法考虑了多无人机协同控制的训练域与实际复杂环境不一致的问题，在多无人机协同控制的训练中模拟现实复杂环境，通过为多无人机在协同控制过程中提供攻击者，获得无人机在面对环境的不确定性时各个动作出现的概率。本发明在环境不确定性因素的干扰下，基于构造的多无人机协同飞行仿真模型，对无人机集群进行训练来更新多无人机的飞行策略，以及，构建基于动作鲁棒的深度强化学习算法模型，执行安全性梯度下降，以更新动作网络，进而更新策略降低最危险动作的执行概率，提高了多无人机协同控制系统的鲁棒性，降低了安全事故的发生。本发明有效的解决了在多无人机协同控制过程中，现实复杂环境存在的不确定性变量导致测试数据和训练数据不一致而造成无人机做出动作误判的问题，提高了多无人机协同控制的安全性。

进一步的，本发明构造的多无人机协同飞行仿真模型包括多无人机飞行模型、多无人机能耗模型、无人机集群多智能体深度确定性策略梯度算法MADDPG学习参数以及威胁模型。其中，威胁模型用于向多无人机集群提供攻击者以仿真模拟环境中的不确定性，无人机集群多智能体深度确定性策略梯度算法MADDPG学习参数用于训练多无人机集群在面对攻击者的情况下形成确定性策略以最小化无人机飞行评估值与目标值之间的误差。同时，通过动作鲁棒的深度强化学习PR-MDP算法执行安全性梯度下降，以计算安全性梯度下降最小化来更新无人机和对手的动作网络，以此实现多无人机集群在环境多个不确定性的扰动下，在基于多智能体深度确定性策略梯度算法MADDPG的动作决策所形成的确定性策略基础上，根据实际情况不断更新策略，以提高多无人机协同控制的安全性和鲁棒性。

附图说明

为了更加清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作以简单地介绍，应当理解，以下附图仅示出了本发明部分实施例，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1 本发明实施例面向多无人机协同的动作鲁棒安全控制方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员还可以在没有做出创造性劳动的前提下获得其他实施例。

请参阅图1，本发明实施例提出一种面向多无人机协同的动作鲁棒安全控制方法，目的在于有效解决在多无人机协同控制过程中，现实复杂环境存在的不确定性变量导致测试数据和训练数据不一致而造成无人机做出动作误判的问题，提高多无人机协同控制的安全性。

本发明实施例面向多无人机协同的动作鲁棒安全控制方法主要包括以下步骤：

步骤1）：获取多无人机的目标函数以及构造多无人机协同飞行仿真模型；

步骤2）：初始化多无人机的状态，设定一个随机的动作探索过程，选择多无人机的初始动作a，初始化策略网络和批评家网络；

步骤3）：在环境不确定性因素的干扰下，基于步骤1）构建的无人机协同飞行仿真模型，采用MADDPG学习方法对无人机集群进行训练来更新多无人机的飞行策略表。计算奖励，建立包含旧状态、动作、奖励、新状态的经验池表，更新多无人机状态；

步骤4）：抽取经验池中少部分样本，计算多无人机协同控制鲁棒性的预期收益，并根据预期收益更新批评家网络；

步骤5）：构建基于动作鲁棒的深度强化学习算法，通过鲁棒策略迭代算法执行改进下的梯度下降步骤，更新动作网络；

步骤6）：更新目标策略网络；

步骤7）：在该状态增加不同的扰动，观察不同动作扰动情况下的奖励值，若奖励值满足收敛性则执行步骤8），否则回转至步骤3）；

步骤8）：保存步骤6）更新的策略。

在一种可能的实施方式中，步骤1）中，所述多无人机的目标函数表达式如下：

在一种可能的实施方式中，本发明实施例的多无人机协同飞行仿真模型包括无人机组飞行模型、能耗模型以及环境不确定性因素的仿真模型。

步骤1.1）构造多无人机飞行模型的方法包括：

式中，表示时隙，表示下一时隙，表示无人机的飞行速度，表示无人机飞行时的方向角；

步骤1.2）构造多无人机能耗模型的方法包括：

无人机到地面用户的功率和感应功率分别为：

地面用户的预期卸载延迟为，其中为任务大小；

步骤1.3）构建无人机集群MADDPG学习参数包括：

，记为所有智能体的策略集合；

步骤1.4）构造威胁模型的方法包括：

攻击者干扰无人机与地面用户组的通信，修改了通信数据和指令，导致无人机采用不同的策略。

假定无人机的攻击强度为，攻击强度越大，越大；

无人机受到攻击者干扰的策略为：

在一种可能的实施方式中，本发明实施例设置无人机的初始状态为s，随机的动作探索过程为x，初始化无人机的状态，设定一个随机的动作探索过程，选择无人机初始动作，初始化批评家网络和策略网络。具体的，本发明实施例根据表达式选择无人机动作，式中，为无人机动作，为多智能体深度确定性策略梯度算法MADDPG中的确定性策略，为无人机的观测状态，为时隙时无人机的随机动作探索过程。

在一种可能的实施方式中，本发明实施例步骤3）具体包括：

3.1）无人机集群在飞行过程中遭遇环境不确定因素模型生成干扰；

3.2）通过计算系统的奖励，式中式中为任务大小，为角速度，为地面用户g的预期卸载延迟速率，为无人机的奖励值；

3.3）将写入经验池F中，为无人机在时隙的状态，为无人机在时隙执行的动作，为无人机在时隙的奖励，为无人机在下个时隙的状态；

3.4）经验池F包含记录了所有无人机的经验，表示多无人机群体在时隙的状态，表示多无人机群体在下个时隙的状态，表示无人机群体在时隙的动作，表示无人机群体在时隙的奖励；

3.5）使用下一时隙的新状态替换旧状态。

在一种可能的实施方式中，本发明实施例步骤4）具体包括：

步骤4.1）按下式计算多无人机数据收集的预期收益梯度：

步骤4.2）根据预期收益更新批评家网络，最小化无人机飞行评估值与目标值之间的误差：

在一种可能的实施方式中，本发明实施例步骤5）具体包括：

步骤5.1）按如下方式构建基于动作鲁棒的深度强化学习算法模型：

记无人机初始状态为，在此状态下选择动作：

根据策略梯度网络更新无人机u在干扰下的策略参数：

式中，更新后对手的策略参数为，更新前的对手参数为，表示与其相应梯度的点积，该点积用于指导更新的方向和幅度，为当前对手的策略。

为批评家网络，在动作鲁棒的深度强化学习PR-MDP（Probabilistic ActionRobust Markov Decision Process)算法中，更新批评家网络可表示为

步骤5.2）通过动作鲁棒的深度强化学习PR-MDP算法执行安全性梯度下降，以计算安全性梯度下降最小化来更新无人机和对手的动作网络，计算表达式如下：

。

在一种可能的实施方式中，本发明实施例步骤6）根据表达式来更新目标策略网络；式中，表示当前策略；表示新的策略；是学习率，表示新参数对当前参数的权重。

在一种可能的实施方式中，本发明实施例步骤7）设置扰动值分别为0、0.1、0.2和0.3；观察不同扰动下奖励值的波动，若波动小于0.1则满足收敛性，此时执行步骤8），若不满足则转至步骤4）重新抽取经验池中的样本计算预期收益。

本发明实施例面向多无人机协同的动作鲁棒安全控制方法考虑了多无人机协同控制的训练域与实际复杂环境不一致的问题，应用环境仿真威胁模型，在多无人机协同控制的训练中模拟现实复杂环境，通过为多无人机在协同控制过程中提供攻击者，获得无人机在面对环境的不确定性时各个动作出现的概率。在基于MADDPG算法的动作决策系统的基础上，通过PR-MDP算法，执行改进的安全性梯度下降，以计算其最小化来更新无人机和对手的动作网络，进而更新策略降低最危险动作的执行概率，提高了多无人机协同控制系统的鲁棒性，降低了安全事故的发生。

本发明实施例还提出一种面向多无人机协同的动作鲁棒安全控制系统，包括：

目标策略网络更新模块，用于更新目标策略网络；

本发明的另一实施例还提出一种电子设备，包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现所述面向多无人机协同的动作鲁棒安全控制方法。

本发明的另一实施例还提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述面向多无人机协同的动作鲁棒安全控制方法。

示例性的，所述存储器中存储的指令可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在计算机可读存储介质中，并由所述处理器执行，以完成本发明所述面向多无人机协同的动作鲁棒安全控制方法。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机程序在服务器中的执行过程。

所述电子设备可以是智能手机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述电子设备还可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可以是所述服务器的内部存储单元，例如服务器的硬盘或内存。所述存储器也可以是所述服务器的外部存储设备，例如所述服务器上配备的插接式硬盘，智能存储卡(Smart Media Card ,SMC) ，安全数字(Secure Digital ,SD)卡，闪存卡(FlashCard)等。进一步地，所述存储器还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述模块单元之间的信息交互、执行过程等内容，由于与方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种面向多无人机协同的动作鲁棒安全控制方法，其特征在于，包括：

更新目标策略网络；

在目标策略网络更新后的状态下增加不同的扰动，观察不同动作扰动情况下的奖励值，若奖励值满足收敛性则保存当前策略，否则返回重新抽取经验池中的样本；

所述初始化多无人机的状态，设定一个随机的动作探索过程，选择多无人机的初始动作，初始化策略网络和批评家网络的步骤包括：根据表达式选择无人机动作，式中，a_u为无人机动作，为多智能体深度确定性策略梯度算法MADDPG中的确定性策略，O_u为无人机的观测状态，为时隙时无人机的随机动作探索过程；

所述构建基于动作鲁棒的深度强化学习算法模型，执行安全性梯度下降，以更新动作网络的步骤包括：

按如下方式构建基于动作鲁棒的深度强化学习算法模型：

记无人机初始状态为s，在此状态下选择动作a_t，则无人机以1-α的概率执行无干扰情况下的理想动作f(s；θ_π)，由无人机的策略参数θ_π控制；无人机以α的概率执行在对抗者攻击情况下的动作由对抗者的策略参数横线控制；α为进行对抗性动作的概率，α∈(0,1]；

根据策略梯度网络更新无人机u在干扰下的策略参数：

θ^u为无人机u的策略参数，为对手的策略参数，α为进行对抗性动作的概率，S为无人机集群状态，为无人机集中动作函数，x＝{o₁,...,o_u}为多无人机观测状态结果，μ_u(a_u|o_u)为无人机u的确定性策略，为无人机在干扰下的混合策略；

式中，更新后对手的策略参数为更新前的对手参数为表示与其相应梯度的点积，该点积用于指导更新的方向和幅度，为当前对手的策略；

φ为批评家网络，在动作鲁棒的深度强化学习PR-MDP算法中更新批评家网络表示为：

式中，θ为无人机目标网络，为对手的目标网络，r为无人机的奖励值，γ表示折扣因子，0＜γ＜1，α∈(0,1)为进行对抗性动作的概率，Q(s'；f(s'；θ))表示无人机在状态S'下的期望回报，表示对手在S'状态下的期望回报；

2.根据权利要求1所述面向多无人机协同的动作鲁棒安全控制方法，其特征在于，所述多无人机的目标函数表达式如下：

式中，Δd_i表示第i架无人机距目标点的距离，MAX表示所有无人机距目标点距离总和的最大值，N为无人机集群内无人机的总数量。

3.根据权利要求1所述面向多无人机协同的动作鲁棒安全控制方法，其特征在于，所述构造多无人机协同飞行仿真模型的步骤包括构造多无人机飞行模型、多无人机能耗模型、无人机集群多智能体深度确定性策略梯度算法MADDPG学习参数以及威胁模型；

构造多无人机飞行模型的方法包括：

构建无人机组U＝{u＝1,2,...,U}以及地面用户组G＝{g|g＝1,2,...,G}，假定无人机在恒定高度飞行，故无人机u的位置坐标为(x_u,y_u)；x坐标与y坐标的更新方式分别为：

式中，k表示时隙，k+1表示下一时隙，υ_u表示无人机u的飞行速度，表示无人机u飞行时的方向角；

构造多无人机能耗模型的方法包括：

无人机到地面的通信功率为P_c＝υ_u[k]×p_u,g，其中，p_u,g是达到速率v所需的能量；

无人机到地面用户的功率和感应功率分别为：

P_l＝ωR₀W×λ

式中，W是无人机的重量，R₀是转子半径，ω是角速度，ρ是空气密度，表示压裂系数，表示转子盘面积，C_b是叶片弦，N_b是叶片的数量，λ是一个固定的常数；

地面用户g的预期卸载延迟为其中T_g为任务大小；

θ＝{θ₁,...,θ_N}，记π＝{π₁,...,π_N}为所有智能体的策略集合；

构造威胁模型的方法包括：

攻击者干扰无人机与地面用户组的通信，修改通信数据和指令，导致无人机采用不同的策略；假定无人机进行对抗性动作的概率为α∈(0,1)，攻击强度越大，α越大；

无人机受到攻击者干扰的策略为：

式中，为攻击者干扰后的混合策略，π为无人机的策略，为攻击者的策略，P为转移概率。

4.根据权利要求3所述面向多无人机协同的动作鲁棒安全控制方法，其特征在于，所述在环境不确定性因素的干扰下，基于构造的多无人机协同飞行仿真模型，对无人机集群进行训练来更新多无人机的飞行策略；同时建立经验池，更新多无人机状态的步骤包括：

通过计算系统的奖励，式中T_g为任务大小，ω_u[k]为角速度，

m_u,g[k]为地面用户g的预期卸载延迟速率，j_u[k]为无人机的奖励值；

将(s_k,a_k,r_k,s_k+1)写入经验池F中，s_k为无人机在时隙的状态，a_k为无人机在时隙执行的动作，r_k为无人机在时隙的奖励，s_k+1为无人机在下个时隙的状态；

经验池F包含(S,S',a₁...,a_u,r₁,...,r_u)记录了所有无人机的经验，S＝{s₁,...s_u}表示多无人机群体在时隙的状态，S'＝{s₁',...,s_u'}表示多无人机群体在下个时隙的状态，a₁,...a_u表示无人机群体在时隙的动作，r₁,...,r_u表示无人机群体在时隙的奖励；

使用下一时隙的新状态S'替换旧状态S。

5.根据权利要求4所述面向多无人机协同的动作鲁棒安全控制方法，其特征在于，所述抽取经验池中的样本，计算多无人机协同控制鲁棒性的预期收益，并根据多无人机协同控制鲁棒性的预期收益更新批评家网络的步骤包括：

按下式计算多无人机的预期收益梯度：

式中，o为无人机的观察状态，x表示所有的无人机的观测结果，{θ₁,...,θ_u}为多无人机的策略集合，μ_u为在确定性策略下无人机u的策略，Q_μ(x,a₁,...,a_u)为确定性策略下的集中行动值函数，包含所有的无人机动作和状态信息以估计期望回报，F为经验池；

式中，l(θ_u)为无人机u的损失函数，n为飞行监测值数据集大小，y为飞行监测真实值，为预测目标值，γ表示折扣因子，0＜γ＜1，r_u为无人机u的奖励，为下一时隙的预测目标值。

6.根据权利要求5所述面向多无人机协同的动作鲁棒安全控制方法，其特征在于，所述更新目标策略网络的步骤中，根据表达式θ′_u←τθ_u+(1-τ)θ′_u来更新目标策略网络；式中，θ_u表示当前策略；θ'_u表示新的策略；τ是学习率，表示新参数对当前参数的权重；

7.一种面向多无人机协同的动作鲁棒安全控制系统，其特征在于，包括：

目标策略网络更新模块，用于更新目标策略网络；

策略筛选模块，用于在目标策略网络更新后的状态下增加不同的扰动，观察不同动作扰动情况下的奖励值，若奖励值满足收敛性则保存当前策略，否则返回重新抽取经验池中的样本；

按如下方式构建基于动作鲁棒的深度强化学习算法模型：

记无人机初始状态为s，在此状态下选择动作a_t，则无人机以1-α的概率执行无干扰情况下的理想动作f(s；θ_π)，由无人机的策略参数θ_π控制；无人机以α的概率执行在对抗者攻击情况下的动作由对抗者的策略参数横线控制；α为进行对抗性动作的概率，α∈[0,1]；

根据策略梯度网络更新无人机u在干扰下的策略参数：

式中，更新后对手的策略参数为更新前的对手参数为

表示与其相应梯度的点积，该点积用于指导更新的方向和幅度，为当前对手的策略；

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述面向多无人机协同的动作鲁棒安全控制方法。