CN116820126A

CN116820126A - 基于多无人机路径规划的深度强化学习系统及方法

Info

Publication number: CN116820126A
Application number: CN202310765351.0A
Authority: CN
Inventors: 赵金铎; 李文钧; 岳克强; 李懿霖; 李瑞雪; 梁嘉铠; 甘智高; 许雨婷
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-09-29

Abstract

本发明公开了基于多无人机路径规划的深度强化学习系统及方法，通过搭建多无人机路径规划场景的虚拟环境模型，在模型中使用深度强化学习算法训练智能体无人机，将无人机飞行过程中采集到的状态信息输入至深度强化学习的神经网络中进行模型训练；在训练过程中，使用对抗攻击算法来干扰智能体接收到的马尔科夫决策序列；构建状态、奖励双重防御框架来完成对攻击扰动的防御；将受到扰动后的马尔可夫序列输入至防御框架中进行数据恢复；将复原后的数据序列放入经验池中供无人机完成后续的动作决策，并通过多轮次的模型训练来得到无人机的最优飞行路径；将训练好的强化学习模型进行对抗攻击。将完成防御测试的模型部署至无人机边缘计算平台。

Description

基于多无人机路径规划的深度强化学习系统及方法

技术领域

本发明属于无人机飞行控制及深度强化学习攻防领域，具体涉及基于多无人机路径规划的深度强化学习系统及方法。

背景技术

现如今，随着人工智能的发展与人类科技水平的提高，强化学习算法开始越来越多的应用于无人机控制领域。强化学习算法可以帮助无人机在未知环境中规划路径信息，大大降低无人机的决策难度，同时也在一定程度上提升了无人机规划任务路径的效率。但随着深度强化学习算法在现实场景中的广泛应用，其安全问题逐渐暴露出来。攻击者在深度强化学习模型的训练和测试阶段，通过利用智能体的状态、动作、环境和奖励进行攻击。在测试阶段，攻击手段包括攻击者向无人机获得的状态信息中添加噪声、修改动作以及使用对抗智能体来误导目标智能体。而在训练阶段，攻击方法涵盖奖励翻转攻击、木马中毒攻击、路径脆弱点攻击和动作空间扰动等。这些攻击手段使得深度强化学习模型面临严重的安全风险，因此，解决强化学习算法的安全性问题变得至关重要。

发明内容

为解决现有技术的不足，实现提升了无人机路径规划鲁棒性的目的，本发明采用如下的技术方案：

基于多无人机路径规划的深度强化学习方法，包括如下步骤：

步骤S1：实时采集无人机在飞行过程中的环境数据作为状态信息；

步骤S2：训练阶段，使用对抗攻击，干扰无人机接收到的马尔科夫决策序列<S_t,A_t,R_t,S_t+1>，马尔科夫决策序列包括状态信息、动作、奖励以及下一时刻的状态信息；

步骤S3：构建状态、奖励双重防御框架，构建是否受到攻击、攻击方式的判别机制，基于遭受攻击的状态、奖励，与所述马尔科夫决策序列中的状态、奖励，构建状态复原和奖励恢复机制，对攻击扰动进行防御；

步骤S4：将受到扰动后的马尔可夫序列，输入训练好的防御框架中，进行数据恢复，再将复原后的数据序列，放入经验池中供无人机完成后续的动作决策，并通过多轮次的模型训练来得到无人机的最优飞行路径。

进一步地，所述步骤S3的防御框架的构建，包括如下步骤：

步骤S3.1：获取马尔科夫决策序列；

步骤S3.2：训练过程中，通过当前时刻的攻击标识与基于神经网络的当前攻击预测值，构建异常值损失，基于异常值检测是否受到攻击；

步骤S3.3：训练过程中，通过当前时刻攻击方式的判别值与基于神经网络的当前攻击方式预测值，构建攻击方式判别损失，用于判别攻击方式；

步骤S3.4：训练过程中，若攻击方式为状态攻击，则基于经攻击的状态信息与所述马尔科夫决策序列中下一时刻的状态信息，构建状态复原损失，用于获取复原后的状态信息；若攻击方式为奖励攻击，则基于经攻击的奖励与所述马尔科夫决策序列中的奖励，构建奖励预测损失，用于获取恢复后的奖励。

进一步地，所述步骤S3.2中，当前时刻的攻击标识函数S_a,S_a＝{0,1}，当S_a＝1时表示当前时刻智能体无人机正在遭受电磁波信号的攻击扰动，反之，当S_a＝0时表示未受到攻击扰动；Agent会通过神经网络预测当前攻击函数预测值S_{a_p}，在攻击预测函数S_{a_p}的计算过程中所使用的异常值损失函数Loss1表示为：

所述步骤S3.3中，实时获取当前时刻攻击方式的判别值A_s，A_s∈{-1，0，1}，当A_s＝1时，表示当前时刻正在遭受奖励攻击，当A_s＝0时，表示当前时刻正在遭受状态攻击，当A_s＝-1时，表示当前时刻没有遭受攻击；神经网络对当前时刻的攻击方式进行预测并得到攻击方式预测函数A_{s_p}，A_{s_p}在计算过程中所产生的攻击方式判别损失函数Loss2表示为：

所述步骤S3.4中，根据攻击方式预测A_{s_p}判断当前所遭受的攻击类型，若当前遭受的是状态攻击，则获得的扰动状态序列S′_t+1将会输入到状态复原网络中进行训练预测，复原后的状态可以表示为S″_t+1。

在状态预测的过程中所使用的状态复原损失函数Loss3表示为：

其中，N表示输入状态的维数；

若当前受到的是奖励攻击，则受到扰动后的奖励R′_t将会输入到奖励复原网络模型中进行训练，预测得到的恢复奖励可以表示为R″_t。

奖励预测过程中用到的奖励预测损失函数Loss4表示为：

进一步地，所述步骤S2中的对抗攻击，可以对深度强化学习模型的状态特征以及奖励回报等方面进行攻击干扰，并以此来让智能体无人机学习受到扰动的状态信息，进而影响智能体的决策能力和性能，包括如下步骤：

步骤S2.1：攻击方式选择，确定当前时刻无人机所遭受的攻击类型，攻击类型包括状态干扰和奖励干扰；

步骤S2.2：扰动时机选择，用于对当前无人机所处状态的优势度测算以及攻击时机的选取；基于马尔科夫序列，对下一时刻的状态以及获得的奖励进行优势状态判断，并通过神经网络训练得到当前无人机所处状态的优势程度；

步骤S2.3：状态扰动，以电磁干扰的方式来影响无人机对于目标位置信息的判断；

步骤S2.4：奖励攻击，采用修改奖励值的方式来进行攻击。

进一步地，所述步骤S2.1中，攻击方式A_m的大小与设定的概率阈值P_s相关，当A_m＝0时，表示当前时刻选择状态攻击的概率要高于奖励攻击的概率，此时输出结果为选择状态干扰的方式进行攻击；当A_m＝1时，表示当前选择奖励攻击的概率要高于状态攻击的概率，因此输出结果为使用奖励扰动的方式进行攻击；A_m的具体表达式为：

其中，P_s∈[1,100]，P_r∈[1,100]，P_s表示攻击方式选择模块的概率阈值，P_r表示攻击方式选择奖励攻击的概率；

所述步骤S2.2中，优势函数为：

其中，当S_v＝1时，表示学习到比之前更优的动作，即无人机执行当前动作后会靠近目标并获得正向的奖励r_t，所以与随机干扰相比，在当前时刻加入攻击扰动会对智能体产生更大的影响；当S_v＝-1时，表示执行的不是最优动作，故当前时刻不进行攻击扰动，E_s∈[0,1]表示所处状态的优势程度；

所述步骤S2.3中，当优势函数S_v＝1且攻击方式A_m＝0时，此时会通过添加信号扰动的方式来获得一个错误的状态S′_t+1，其中受到干扰的状态包括趋近程度t_r以及无人机与目标的距离d_a，干扰后的趋近程度t′_r表示为：

其中d_amin表示无人机可以与目标建立有效通信时的距离，d_amax表示无人机与目标的最大距离，受到攻击后的下一时刻状态S′_t+1将会影响接下来要执行动作的价值函数Q(S,A)，表示为：

Q(S_t+1,A_t+1)＝Q(S′_t+1,A_t+1)

其中S_t+1表示未受攻击时无人机下一时刻的状态，A_t+1表示下一时刻无人机执行的动作。

所述步骤S2.4中，当优势函数S_v＝1且攻击方式A_m＝1时，选择在当前时刻进行奖励攻击，受到攻击后的扰动奖励R′_t表示为：

R′_t＝μ_t*R_t

其中，R_t表示奖励值，μ_t表示奖励扰动函数。

进一步地，搭建多无人机路径规划场景的虚拟环境模型，用于实时采集无人机在飞行过程中的环境数据作为状态信息；使用虚拟仿真环境代替真实的任务场景，虚拟环境模型选用的场景模型为多无人机用于辅助通信的任务模型，该模型包括执行任务的区域大小、障碍物模型设计、地面用户通信模型，虚拟模型的搭建一方面为无人机设定了飞行任务的执行目标，另一方面也为无人机的路径规划提供了训练场所。

进一步地，通过设计深度强化学习算法模型来完成无人机的飞行路径的规划；无人机在飞行过程中会实时采集环境的数据信息，包括：无人机自身位置信息、无人机与障碍物的距离、无人机距目标点的距离、接收信号强度，将这些环境数据作为状态信息输入至深度强化学习算法网络中用于后续的分析与计算。

基于多无人机路径规划的深度强化学习系统，包括状态信息获取模块、攻击模型模块、防御模型模块和模型部署模块；

所述状态信息获取模块，实时采集无人机在飞行过程中的环境数据作为状态信息；

所述攻击模型模块，训练阶段，使用对抗攻击，干扰无人机接收到的马尔科夫决策序列<S_t,A_t,R_t,S_t+1>，马尔科夫决策序列包括状态信息、动作、奖励以及下一时刻的状态信息；

所述防御模型模块，构建状态、奖励双重防御框架，构建是否受到攻击、攻击方式的判别机制，基于遭受攻击的状态、奖励，与所述马尔科夫决策序列中的状态、奖励，构建状态复原和奖励恢复机制，对攻击扰动进行防御；

所述模型部署模块，将受到扰动后的马尔可夫序列，输入训练好的防御框架中，进行数据恢复，再将复原后的数据序列，放入经验池中供无人机完成后续的动作决策，并通过多轮次的模型训练来得到无人机的最优飞行路径。

进一步地，所述防御模型模块包括序列输入模块、异常值检测模块、攻击方式判别器、数据恢复模块、预测值输出模块；

所述序列输入模块，获取马尔科夫决策序列；

所述异常值检测模块，训练过程中，通过当前时刻的攻击标识与基于神经网络的当前攻击预测值，构建异常值损失，基于异常值检测是否受到攻击；

所述攻击方式判别器，训练过程中，通过当前时刻攻击方式的判别值与基于神经网络的当前攻击方式预测值，构建攻击方式判别损失，用于判别攻击方式；

所述数据恢复模块，训练过程中，若攻击方式为状态攻击，则基于经攻击的状态信息与所述马尔科夫决策序列中下一时刻的状态信息，构建状态复原损失，用于获取复原后的状态信息；若攻击方式为奖励攻击，则基于经攻击的奖励与所述马尔科夫决策序列中的奖励，构建奖励预测损失，用于获取恢复后的奖励；

所述预测值输出模块，输出复原后的状态信息和恢复后的奖励。

进一步地，所述攻击模型模块包括攻击方式选择模块、扰动时机选择器、状态扰动模块、奖励攻击模块；

所述攻击方式选择模块，用于确定当前时刻无人机所遭受的攻击类型，攻击类型包括状态干扰和奖励干扰；

所述扰动时机选择器，用于对当前无人机所处状态的优势度测算以及攻击时机的选取；基于马尔科夫序列，对下一时刻的状态以及获得的奖励进行优势状态判断，并通过神经网络训练得到当前无人机所处状态的优势程度；

所述状态扰动模块，以电磁干扰的方式来影响无人机对于目标位置信息的判断；

所述奖励攻击模块，采用修改奖励值的方式来进行攻击。

本发明的优势和有益效果在于：

本发明的基于多无人机路径规划的深度强化学习系统及方法，构建了优势动作检测模块，为攻击者指明了最佳的扰动时机，在降低攻击者的扰动次数的同时，也提高了攻击的效率；本发明提出了一种可同时应对状态扰动与奖励干扰两种攻击方式的双重防御框架，极大的增强了深度强化学习算法的鲁棒性；本发明使用自行构建的虚拟仿真平台来完成无人机的飞行训练，有效的降低了开发成本。

附图说明

图1是本发明实施例中方法的流程图。

图2是本发明实施例中对抗攻击方案的流程图。

图3是本发明实施例中防御框架设计的流程图。

图4是本发明实施例中系统运行的原理图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，基于多无人机路径规划的深度强化学习方法，包括如下步骤：

在本实施例中，关于搭建多无人机路径规划场景的虚拟环境模型，是指使用搭建的虚拟仿真环境来代替真实的任务场景。虚拟环境模型选用的场景模型为多无人机用于辅助通信的任务模型，该模型主要是由执行任务的区域大小、障碍物模型设计、地面用户通信模型三方面组成。虚拟模型的搭建一方面为无人机设定了飞行任务的执行目标，另一方面也为无人机的路径规划提供了训练场所。

在本实施例中，关于在场景模型中使用深度强化学习算法训练智能体无人机，是指通过设计深度强化学习算法模型来完成无人机的飞行路径的规划。无人机在飞行过程中会实时采集环境的数据信息，包括：无人机自身位置信息、无人机与障碍物的距离、无人机距目标点的距离、接收信号强度等。这些环境数据会作为状态信息输入至深度强化学习算法网络中用于后续的分析与计算。

在本实施例中，关于将无人机飞行过程中所采集到的状态信息输入至深度强化学习的神经网络中进行模型训练，是指将无人机飞行过程中所采集到的状态信息输入至深度强化学习的神经网络中进行模型训练。输入的状态信息S_t会与动作A_t、奖励R_t以及下一时刻的状态信息S_t+1组成马尔可夫决策序列<S_t,A_t,R_t,S_t+1>，智能体无人机会根据输入的马尔可夫序列来完成后续的模型训练。

在本实施例中，关于在训练过程中使用对抗攻击算法来干扰智能体接收到的马尔科夫决策序列，是指采用电磁信号扰动的方式来改变智能体接收到的数据信息。该攻击方案主要由攻击方式选择、扰动时机选择、状态扰动、奖励攻击四部分组成，可以对深度强化学习模型的状态特征以及奖励回报等方面进行攻击干扰，并以此来让智能体无人机学习受到扰动的状态信息，进而影响智能体的决策能力和性能。

在本实施例中，关于攻击算法中的攻击方式选择，是指整个攻击算法由状态干扰和奖励扰动两种攻击方式组成，攻击方式选择决定了在当前时刻智能体无人机所遭受的攻击的类型。对抗攻击方案流程如图2所示，其中攻击方式A_m的大小与设定的概率阈值P_s相关。当A_m＝0时，代表当前时刻选择状态攻击的概率要高于奖励攻击的概率，此时输出结果为选择状态干扰的方式进行攻击；当A_m＝1时，表示当前选择奖励攻击的概率要高于状态攻击的概率，因此输出结果为使用奖励扰动的方式进行攻击；A_m的具体表达式为：

其中，P_s∈[1,100]，P_r∈[1,100]，P_s表示攻击方式选择模块的概率阈值，P_r表示攻击方式选择奖励攻击的概率。

在本实施例中，关于攻击算法中的扰动时机选择，是指完成对当前智能体所处状态的优势度测算以及攻击时机的选取工作。选择器会将智能体从仿真环境中获得的马尔科夫序列<S_t,A_t,R_t,S_t+1>输入至算法模型中，为降低对智能体的攻击频率，扰动时机选择器会对下一时刻的状态S_t+1,S_t+1＝(p_o,p_c,d_c,d_a,t_r,c)以及获得的奖励r_t进行优势状态判断，并通过神经网络训练得到当前Agent所处状态的优势程度E_s∈[0,1]，优势函数S_v可以表示为

当S_v＝1时，表示Agent学习到了比之前更优的动作，即无人机执行当前动作后会靠近被困人员并获得正向的奖励r_t，所以与随机干扰相比，在当前时刻加入攻击扰动会对智能体产生更大的影响。当S_v＝-1时，表示Agent执行的不是最优动作，故当前时刻不进行攻击扰动。

在本实施例中，关于攻击算法中的状态扰动，是指攻击算法的状态扰动部分，主要是以电磁干扰的方式来影响无人机对于地面被困人员位置信息的判断。当优势函数S_v＝1且攻击方式A_m＝0时，此时会通过添加信号扰动的方式来让Agent获得一个错误的状态S′_t+1，其中受到干扰的状态包括趋近程度t_r以及无人机与被困人员的距离d_a。干扰后的趋近程度t′_r可以表示为

其中d_amin表示无人机可以与地面被困人建立有效通信时的距离一般设为5m，d_amax表示在场景模型中无人机与地面受灾人员的最大距离。受到攻击后的下一时刻状态S′_t+1将会影响Agent接下来要执行动作的价值函数Q(S,A)，可以表示为

Q(S_t+1,A_t+1)＝Q(S′_t+1,A_t+1)

在本实施例中，关于攻击算法中的奖励攻击，是指攻击算法的奖励攻击部分，主要采用修改奖励值R_t的方式来进行攻击。当优势函数S_v＝1且攻击方式A_m＝1时，选择在当前时刻进行奖励攻击。受到攻击后的扰动奖励R′_t可以表示为

R′_t＝μ_t*R_t

其中μ_t表示奖励扰动函数。

在本实施例中，关于构建状态、奖励双重防御框架来完成对攻击扰动的防御，是指构建可同时应对S、R两种攻击方式的状态、奖励双重防御框架来提升强化学习算法的鲁棒性。整个防御框架主要由MDP序列输入、异常值检测、攻击方式判别、数据恢复、预测值输出共五部分组成，可以帮助智能体无人机防御所受到的电磁干扰以及奖励扰动等多种攻击的干扰。防御框架设计流程如图3所示。

在本实施例中，关于防御框架中的异常值检测，是指智能体在算法模型的训练过程中会得到当前时刻的攻击标识函数S_a,S_a＝{0,1}，当S_a＝1时表示当前时刻智能体无人机正在遭受电磁波信号的攻击扰动，反之，当S_a＝0时表示未受到攻击者的扰动。Agent会通过神经网络来实现对当前攻击函数预测值S_{a_p}，在攻击预测函数S_{a_p}的计算过程中所使用的异常值损失函数Loss1可以表示为

在本实施例中，关于防御框架中的攻击方式判别，是指在智能体在训练过程中会实时得到当前时刻攻击方式的判别值A_s，A_s∈{-1，0，1}，当A_s＝1时，表示当前时刻正在遭受奖励攻击，当A_s＝0时，表示当前时刻正在遭受状态攻击，当A_s＝-1时，表示当前时刻没有遭受攻击。神经网络会对当前时刻的攻击方式进行预测并得到攻击方式预测函数A_{s_p}，A_{s_p}在计算过程中所产生的攻击方式判别损失函数Loss2可以表示为

在本实施例中，关于防御框架中的数据恢复，是指对受到扰动的数据信息进行复原。根据数据恢复模块预测得到的A_{s_p}的大小来判断当前所遭受的攻击类型，若当前遭受的是状态攻击，则获得的扰动状态序列S′_t+1将会输入到状态复原网络中进行训练预测，复原后的状态可以表示为S″_t+1。

在状态预测的过程中所使用的状态复原损失函数Loss3表示为

其中，N表示输入状态的维数；

在奖励预测过程中用到的奖励预测损失函数Loss4表示为

在本实施例中，关于将受到扰动后的马尔可夫序列输入至防御框架中进行数据恢复，是指将受到扰动后的马尔可夫序列<S_t,A_t,R′_t,S′_t+1>输入至防御框架中进行数据恢复。扰动后的序列首先会进行异常值的检验，之后会进入攻击方式判别模块并通过预测得到当前智能体所受扰动的攻击方式。最后防御框架会根据所受扰动的方式来进行数据的恢复与输出复原得到的马尔科夫序列可以表示为<S_t,A_t,R″_t,S″_t+1>。

在本实施例中，关于把复原后的数据序列放入经验池中供无人机完成后续的动作决策，并通过多轮次的模型训练来得到无人机的最优飞行路径，是指复原得到的马尔科夫序列<S_t,A_t,R″_t,S″_t+1>会输入到经验池中供智能体无人机完成后续的训练任务。智能体无人机会通过学习复原后的经验池中的决策信息来完成下一步动作A_t+1的执行，之后会在虚拟模型中进行800回合的训练，并最终得到无人机的最优飞行路径。

在本实施例中，关于将训练好的强化学习模型进行对抗攻击实验，以此来测试模型的防御效果，是指将训练好的强化学习模型进行对抗攻击实验，以此来测试模型的防御效果。整个测试过程的周期设置为100回合，在测试过程中智能体会使用训练好的模型来完成后续动作的输出与执行，无人机在飞行过程中还会持续受到攻击算法的干扰。测试完成后会根据无人机所规划的任务路径来评判模型的防御效果。

在本实施例中，关于将完成测试的算法模型部署至无人机边缘计算平台，是指测试完成的算法模型将会部署至无人机边缘计算平台上进行实时的决策输出。边缘计算平台选用华为昇腾Atlas 200DK，同时利用毫米波雷达、陀螺仪、GPS等外设实现对环境信息的实时采集并输入至强化学习模型中进行后续动作的输出，最终实现真实场景下的信息采集与动作决策。

在本实施例中，关于将部署完成的无人机放入真实场景中完成任务路径的规划，是指模型部署完成的无人机将放于真实场景中完成飞行任务的路径规划。无人机会实时采集真实场景中的环境状态信息，然后通过部署的算法模型来完成后续的飞行动作的决策。无人机将根据算法模型的实时分析结果得到当前时刻下的最优动作并以此往复直到规划出最优的任务路径。

如图4所示，基于多无人机路径规划的深度强化学习系统，包括状态信息获取模块、攻击模型模块、防御模型模块和模型部署模块。

状态信息获取模块，实时采集无人机在飞行过程中的环境数据作为状态信息。

攻击模型模块，训练阶段，使用对抗攻击，干扰无人机接收到的马尔科夫决策序列<S_t,A_t,R_t,S_t+1>，马尔科夫决策序列包括状态信息、动作、奖励以及下一时刻的状态信息；攻击模型模块包括：

攻击方式选择模块，用于确定当前时刻无人机所遭受的攻击类型，攻击类型包括状态干扰和奖励干扰；

扰动时机选择器，用于对当前无人机所处状态的优势度测算以及攻击时机的选取；基于马尔科夫序列，对下一时刻的状态以及获得的奖励进行优势状态判断，并通过神经网络训练得到当前无人机所处状态的优势程度；

状态扰动模块，以电磁干扰的方式来影响无人机对于目标位置信息的判断；

奖励攻击模块，采用修改奖励值的方式来进行攻击。

防御模型模块，构建状态、奖励双重防御框架，构建是否受到攻击、攻击方式的判别机制，基于遭受攻击的状态、奖励，与所述马尔科夫决策序列中的状态、奖励，构建状态复原和奖励恢复机制，对攻击扰动进行防御；具体地，防御模型模块包括：

序列输入模块，获取马尔科夫决策序列；

异常值检测模块，训练过程中，通过当前时刻的攻击标识与基于神经网络的当前攻击预测值，构建异常值损失，基于异常值检测是否受到攻击；

攻击方式判别器，训练过程中，通过当前时刻攻击方式的判别值与基于神经网络的当前攻击方式预测值，构建攻击方式判别损失，用于判别攻击方式；

数据恢复模块，训练过程中，若攻击方式为状态攻击，则基于经攻击的状态信息与所述马尔科夫决策序列中下一时刻的状态信息，构建状态复原损失，用于获取复原后的状态信息；若攻击方式为奖励攻击，则基于经攻击的奖励与所述马尔科夫决策序列中的奖励，构建奖励预测损失，用于获取恢复后的奖励；

预测值输出模块，输出复原后的状态信息和恢复后的奖励。

模型部署模块，将受到扰动后的马尔可夫序列，输入训练好的防御框架中，进行数据恢复，再将复原后的数据序列，放入经验池中供无人机完成后续的动作决策，并通过多轮次的模型训练来得到无人机的最优飞行路径。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.基于多无人机路径规划的深度强化学习方法，其特征在于包括如下步骤：

步骤S1：采集无人机在飞行过程中的环境数据作为状态信息；

步骤S2：训练阶段，使用对抗攻击，干扰无人机接收到的马尔科夫决策序列，马尔科夫决策序列包括状态信息、动作、奖励以及下一时刻的状态信息；

2.根据权利要求1所述的基于多无人机路径规划的深度强化学习方法，其特征在于：所述步骤S3的防御框架的构建，包括如下步骤：

步骤S3.1：获取马尔科夫决策序列；

步骤S3.2：通过当前时刻的攻击标识与基于神经网络的当前攻击预测值，构建异常值损失，基于异常值检测是否受到攻击；

步骤S3.3：通过当前时刻攻击方式的判别值与基于神经网络的当前攻击方式预测值，构建攻击方式判别损失，用于判别攻击方式；

步骤S3.4：若攻击方式为状态攻击，则基于经攻击的状态信息与所述马尔科夫决策序列中下一时刻的状态信息，构建状态复原损失，用于获取复原后的状态信息；若攻击方式为奖励攻击，则基于经攻击的奖励与所述马尔科夫决策序列中的奖励，构建奖励预测损失，用于获取恢复后的奖励。

3.根据权利要求2所述的基于多无人机路径规划的深度强化学习方法，其特征在于：

所述步骤S3.2中，当前时刻的攻击标识S_a,S_a＝{0,1}，当S_a＝1时表示当前无人机正在遭受攻击扰动，反之，当S_a＝0时表示未受到攻击扰动；通过神经网络预测当前攻击预测值S_{a_p}，在攻击预测函数S_{a_p}的计算过程中所使用的异常值损失函数Loss1表示为：

所述步骤S3.3中，获取当前时刻攻击方式的判别值A_s，A_s∈{-1，0，1}，当A_s＝1时，表示当前时刻正在遭受奖励攻击，当A_s＝0时，表示当前时刻正在遭受状态攻击，当A_s＝-1时，表示当前时刻没有遭受攻击；神经网络对当前时刻的攻击方式进行预测并得到攻击方式预测A_{s_p}，A_{s_p}在计算过程中所产生的攻击方式判别损失函数Loss2表示为：

所述步骤S3.4中，根据攻击方式预测A_{s_p}判断当前所遭受的攻击类型，若当前遭受的是状态攻击，则获得的扰动状态序列S′_t+1将会输入到状态复原网络中进行训练预测，S″_t+1表示复原后的状态。

其中，N表示输入状态的维数；

若当前受到的是奖励攻击，则受到扰动后的奖励R′_t将会输入到奖励复原网络模型中进行训练，R″_t表示预测得到的恢复奖励；

在奖励预测过程中用到的奖励预测损失函数Loss4表示为：

4.根据权利要求1所述的基于多无人机路径规划的深度强化学习方法，其特征在于：所述步骤S2中的对抗攻击包括如下步骤：

步骤S2.4：奖励攻击，采用修改奖励值的方式来进行攻击。

5.根据权利要求4所述的基于多无人机路径规划的深度强化学习方法，其特征在于：

所述步骤S2.1中，攻击方式A_m的大小与设定的概率阈值P_s相关，当A_m＝0时，表示当前时刻选择状态攻击的概率要高于奖励攻击的概率，此时输出结果为选择状态干扰的方式进行攻击；当A_m＝1时，表示当前选择奖励攻击的概率要高于状态攻击的概率，因此输出结果为使用奖励扰动的方式进行攻击；A_m的具体表达式为：

其中，P_s表示攻击方式选择模块的概率阈值，P_r表示攻击方式选择奖励攻击的概率；

所述步骤S2.2中，优势函数为：

其中，当S_v＝1时，表示学习到比之前更优的动作，即无人机执行当前动作后会靠近目标并获得正向的奖励；当S_v＝-1时，表示执行的不是最优动作，故当前时刻不进行攻击扰动，E_s∈[0,1]表示所处状态的优势程度；

Q(S_t+1,A_t+1)＝Q(S′_t+1,A_t+1)

R′_t＝μ_t*R_t

其中，R_t表示奖励值，μ_t表示奖励扰动函数。

6.根据权利要求1所述的基于多无人机路径规划的深度强化学习方法，其特征在于：搭建多无人机路径规划场景的虚拟环境模型，用于采集无人机在飞行过程中的环境数据作为状态信息；使用虚拟仿真环境代替真实的任务场景，虚拟环境模型选用的场景模型为多无人机用于辅助通信的任务模型，该模型包括执行任务的区域大小、障碍物模型设计、地面用户通信模型。

7.根据权利要求1所述的基于多无人机路径规划的深度强化学习方法，其特征在于：通过设计深度强化学习算法模型来完成无人机的飞行路径的规划；无人机在飞行过程中会实时采集环境的数据信息，包括：无人机自身位置信息、无人机与障碍物的距离、无人机距目标点的距离、接收信号强度，将这些环境数据作为状态信息。

8.基于多无人机路径规划的深度强化学习系统，包括状态信息获取模块、攻击模型模块、防御模型模块和模型部署模块，其特征在于：

所述状态信息获取模块，采集无人机在飞行过程中的环境数据作为状态信息；

所述攻击模型模块，使用对抗攻击，干扰无人机接收到的马尔科夫决策序列，马尔科夫决策序列包括状态信息、动作、奖励以及下一时刻的状态信息；

9.根据权利要求8所述的基于多无人机路径规划的深度强化学习系统，其特征在于：所述防御模型模块包括序列输入模块、异常值检测模块、攻击方式判别器、数据恢复模块、预测值输出模块；

所述序列输入模块，获取马尔科夫决策序列；

所述异常值检测模块，通过当前时刻的攻击标识与基于神经网络的当前攻击预测值，构建异常值损失，基于异常值检测是否受到攻击；

所述攻击方式判别器，通过当前时刻攻击方式的判别值与基于神经网络的当前攻击方式预测值，构建攻击方式判别损失，用于判别攻击方式；

所述数据恢复模块，若攻击方式为状态攻击，则基于经攻击的状态信息与所述马尔科夫决策序列中下一时刻的状态信息，构建状态复原损失，用于获取复原后的状态信息；若攻击方式为奖励攻击，则基于经攻击的奖励与所述马尔科夫决策序列中的奖励，构建奖励预测损失，用于获取恢复后的奖励；

10.根据权利要求8所述的基于多无人机路径规划的深度强化学习系统，其特征在于：所述攻击模型模块包括攻击方式选择模块、扰动时机选择器、状态扰动模块、奖励攻击模块；

所述奖励攻击模块，采用修改奖励值的方式来进行攻击。