CN110412999A

CN110412999A - 对抗环境下多无人机任务分配的博弈智能决策方法及系统

Info

Publication number: CN110412999A
Application number: CN201910534670.4A
Authority: CN
Inventors: 罗贺; 雷星; 胡笑旋; 王国强; 马滢滢; 张鹏; 王菊; 夏维; 靳鹏; 马华伟
Original assignee: Hefei Polytechnic University
Current assignee: Hefei Polytechnic University
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-11-05
Anticipated expiration: 2039-06-20
Also published as: CN110412999B

Abstract

本发明提供一种对抗环境下多无人机任务分配的博弈智能决策方法及系统，本发明根据监测方的第一监测策略与攻击方的攻击策略中相同的监测区域，确定监测方的多个第二监测策略；之后基于包括一个第一监测策略和一个攻击策略的策略对的未被发现概率，从攻击策略中筛选目标攻击策略，最后基于第二监测策略、目标攻击策略和监测发现概率，从第二监测策略中筛选目标监测策略对攻击方进行监测。上述技术方案利用斯坦克尔伯格博弈模型求解，解决无法在攻击方能够观测已实施的巡逻策略的前提下，制定有效的巡逻策略来以最大的概率发现攻击方的技术问题，同时通过对监测方的监测策略进行处理，对攻击方的策略进行筛选降低了计算量，提高了计算效率。

Description

对抗环境下多无人机任务分配的博弈智能决策方法及系统

技术领域

本发明涉及电力领域，具体涉及一种对抗环境下多无人机任务分配的博弈智能决策方法及系统。

背景技术

无人机能够在多种环境下自主的完成给定任务，有效降低人力成本。当前利用多架无人机对某一区域进行巡逻已经逐渐成为安保中的重要手段之一。设计有效的巡逻策略来部署无人机的巡逻时间和地点，将能够提高监测到监测区域内攻击者的可能性。

无人机的巡逻策略包括任意巡逻周期内每架无人机的巡逻时间和巡逻地点。由于需要提前制定巡逻策略，并且攻击方可以观测到已实施的巡逻策略，因此巡逻策略的制定不仅需要考虑无人机搭载设备的监测精度，还要考虑攻击方可能的攻击策略。另外对于相邻的两个巡逻周期，无人机两次巡逻的地点只可能是相同或者相邻的。当某架无人机的巡逻策略与攻击方选择通过某一监测区域的时间和地点存在交集时，无人机将以一定的概率监测到攻击方，否则监测失败。

可见，在利用无人机进行任务监测的过程中，既要考虑由无人机搭载设备的监测精度所带来的不确定性，还要考虑巡逻策略可以被攻击方观测的现实，同时，由于双方的策略需要同时从时间和空间两个维度考虑，使得在确定巡逻策略的过程中的计算量相当庞大，效率很低。另外，现有技术中在确定巡逻策略时，是基于所有的攻击策略确定的，计算量大，效率低。

目前，无法在攻击方能够观测已实施的巡逻策略的前提下，制定有效的巡逻策略来以最大的概率发现攻击方，同时，现有技术中在确定巡逻策略过程时计算量庞大，效率低下。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种对抗环境下多无人机任务分配的博弈智能决策方法及系统，解决了现有技术中无法在攻击方能够观测已实施的巡逻策略的前提下，制定有效的巡逻策略来以最大的概率发现攻击方，同时，现有技术中在确定巡逻策略过程是计算量庞大，效率低下的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本申请实施例提供了一种对抗环境下多无人机任务分配的博弈智能决策方法，包括：

获取无人机监测任务和无人机监测周期；

基于所述无人机监测任务，确定多个监测区域，并基于所述无人机监测周期，确定多个监测时刻；

基于所述多个监测区域和所述多个监测时刻，确定监测方的多个第一监测策略；其中所述第一监测策略包括每个无人机的一个监测路径，所述监测路径包括对应的无人机在所述无人机监测周期的每个监测时刻所通过的监测区域；所述监测方包括多个无人机；

基于所述多个监测区域和所述多个监测时刻，确定攻击方的多个攻击策略；其中所述攻击策略包括攻击方在连续的、至少两个监测时刻之间的时间段内通过一个监测区域的攻击路径；

基于所述多个第一监测策略和所述多个攻击策略，形成多个策略对；其中所述策略对包括一个第一监测策略和一个攻击策略；

针对每个策略对，确定该策略对中第一监测策略的每个无人机的监测路径中与该策略对攻击策略的攻击路径中相同的监测区域，得到该策略对对应的目标监测区域；

基于执行每个第一监测策略的概率和每个第一监测策略中覆盖每个监测区域的无人机的数量，确定监测方的第二监测策略；

针对每个策略对，基于监测发现概率、对应的第一监测策略中每个无人机的监测路径中与对应的攻击策略的攻击路径中相同的监测区域，确定监测方在采取该策略对中的第一监测策略、并且攻击方在采取时该策略对中的攻击策略时，攻击方未被监测方发现的概率，得到该策略对对应的未发现概率；其中所述监测发现概率为监测方和攻击方在同一监测区域时，监测方发现攻击方的概率；

基于每个策略对对应的未发现概率，以及第二监测策略，从所述攻击策略中筛选目标攻击策略；

基于所述第二监测策略、所述目标攻击策略和所述监测发现概率，从所述第二监测策略中筛选目标监测策略；

根据确定的目标监测策略，确定每个无人机的监测路径。

在一种可能的实施方式中，所述基于执行每个第一监测策略的概率和每个第一监测策略中覆盖每个监测区域的无人机的数量，确定监测方的第二监测策略，包括：

针对每个第一监测策略，基于执行该第一监测策略的概率和该第一监测策略中覆盖每个监测区域的无人机的数量，确定该第一监测策略对应的期望监测策略；

将所有期望监测策略作为所述监测方的第二监测策略。

在一种可能的实施方式中，所述基于所述第二监测策略、目标攻击策略和监测发现概率，从所述第二监测策略中筛选目标监测策略，包括：

基于目标攻击策略、监测发现概率和每个策略对的第一监测策略对应的期望监测策略，确定攻击方未被监测方发现的第一期望概率模型和监测方发现攻击方的第二期望概率模型；

基于第一期望概率模型和第二期望概率模型，确定在第一期望概率模型取得最大的概率值时，第二期望概率模型取得的最大概率值；

确定第二期望概率模型取得的最大概率值时对应的第二监测策略，得到所述目标监测策略。

在一种可能的实施方式中，所述方法利用如下公式确定第一期望概率模型：

U_a(f,a)＝{Π_v∈a(1-δ(v))^f(v)}

式中，δ(v)表示监测发现概率，a表示攻击策略。

在一种可能的实施方式中，所述方法利用如下公式，实现基于每个策略对对应第一期望概率模型和第二期望概率模型，确定在第一期望概率模型取得最大的概率值时，第二期望概率模型取得的最大概率值：

max_fU_d

U_d≤-U_a(f,a),

f(i,t_k)＝Σ_j∈N(i)z((i,t_k),(j,t_k+1)),

f(i,t_k)＝∑_j∈N(i)z((j,t_k-1),(i,t_k)),

∑_i∈Rf(i,t_k)＝m,k＝1,2,…,T

z((i,t_k),(j,t_k+1))≥0,

式中，U_d表示第二期望概率值，U_a(f,a)表示第一期望概率模型，A表示攻击策略集合，a表示攻击策略，R表示监测区域集合，T表示最大监测时刻序号，N(i)表示监测区域i的相邻区域，f(i,t_k)表示在t_k时刻覆盖监测区域i的无人机的数量，z((i,t_k),(j,t_k+1))表示t_k时刻从监测区域i出发，t_k+1时刻到监测区域j的无人机的数量，z((j,t_k-1),(i,t_k))表示t_k-1时刻从监测区域j出发，t_k时刻到监测区域i的无人机的数量，m表示无人机的总数量。

在一种可能的实施方式中，所述基于每个策略对对应第一期望概率模型和第二期望概率模型，确定在第一期望概率模型取得最大的概率值时，第二期望概率模型取得的最大概率值，包括：

对所述第一期望概率模型进行自然对数处理，并利用自然对数处理后的第一期望概率模型和第二期望概率模型，确定在自然对数处理后的第一期望概率模型取得最大的概率值时，第二期望概率模型取得的最大概率值。

在一种可能的实施方式中，所述基于每个策略对对应的未发现概率，以及第二监测策略，从所述攻击策略中筛选目标攻击策略，包括：

基于每个策略对对应的未发现概率，从所述攻击策略中筛选监测方在采取任一种第一监测策略时，攻击方未被监测方发现的概率均大于攻击方未采取其他攻击策略时被监测方发现的概率的攻击策略，得到所述目标攻击策略。

在一种可能的实施方式中，所述目标攻击策略包括两个监测时刻。

在一种可能的实施方式中，所述策略对对应的未发现概率，利用如下公式确定：

式中，m表示无人机的数量，V_W表示策略对(d,a)对应的第一监测策略中无人机w的监测路径中与对应的目标攻击策略的攻击路径中相同的监测区域，δ(v)表示监测发现概率。

第二方面，本申请实施例提供了一种对抗环境下多无人机任务分配的博弈智能决策系统，包括：

信息获取模块，用于获取无人机监测任务和无人机监测周期；

监测信息确定模块，用于基于所述无人机监测任务，确定多个监测区域，并基于所述无人机监测周期，确定多个监测时刻；

第一策略确定模块，用于基于所述多个监测区域和所述多个监测时刻，确定监测方的多个第一监测策略；基于所述多个监测区域和所述多个监测时刻，确定攻击方的多个攻击策略；其中所述攻击策略包括攻击方在连续的、至少两个监测时刻之间的时间段内通过一个监测区域的攻击路径；其中所述第一监测策略包括每个无人机的一个监测路径，所述监测路径包括对应的无人机在所述无人机监测周期的每个监测时刻所通过的监测区域；所述监测方包括多个无人机；

策略对确定模块，用于基于所述多个第一监测策略和所述多个攻击策略，形成多个策略对；其中所述策略对包括一个第一监测策略和一个攻击策略；

区域筛选模块，用于针对每个策略对，确定该策略对中第一监测策略的每个无人机的监测路径中与该策略对攻击策略的攻击路径中相同的监测区域，得到该策略对对应的目标监测区域；

第二策略确定模块，用于基于执行每个第一监测策略的概率和每个第一监测策略中覆盖每个监测区域的无人机的数量，确定监测方的第二监测策略；

第三策略确定模块，用于针对每个策略对，基于监测发现概率、对应的第一监测策略中每个无人机的监测路径中与对应的攻击策略的攻击路径中相同的监测区域，确定监测方在采取该策略对中的第一监测策略、并且攻击方在采取时该策略对中的攻击策略时，攻击方未被监测方发现的概率，得到该策略对对应的未发现概率；基于每个策略对对应的未发现概率，以及第二监测策略，从所述攻击策略中筛选目标攻击策略；其中所述监测发现概率为监测方和攻击方在同一监测区域时，监测方发现攻击方的概率；

目标策略确定模块，用于基于所述第二监测策略、所述目标攻击策略和所述监测发现概率，从所述第二监测策略中筛选目标监测策略；

监测路径确定模块，用于根据确定的目标监测策略，确定每个无人机的监测路径。

(三)有益效果

本发明实施例提供了一种对抗环境下多无人机任务分配的博弈智能决策方法及系统。具备以下有益效果：

本发明实施例根据监测区域和监测时刻，确定监测方的多个第一监测策略和攻击方的多个攻击策略，之后确定第一监测策略的每个无人机的监测路径中与攻击策略的攻击路径中相同的监测区域，继而根据覆盖相同的监测区域的无人机的数量，确定监测方的多个第二监测策略；之后基于包括一个第一监测策略和一个攻击策略的策略对的未被发现概率，以及第二监测策略，从攻击策略中筛选目标攻击策略，最后基于监测方的多个第二监测策略、攻击方的多个目标攻击策略和监测发现概率，从第二监测策略中筛选目标监测策略对攻击方进行监测。上述技术方案利用斯坦克尔伯格博弈模型进行求解，解决了现有技术中无法在攻击方能够观测已实施的巡逻策略的前提下，制定有效的巡逻策略来以最大的概率发现攻击方的技术问题，同时利用覆盖相同的监测区域的无人机的数量确定第二监测策略，实现了一种紧凑形式的双层线性规划问题，解决了监测方策略空间的组合爆炸问题，降低了计算量，提高了计算效率。另外，上述技术方案基于策略对的未被发现概率，能够从所有攻击策略中剔除恶略策略，解决了攻击方的攻击策略数量随时间和空间快速增长的问题，减小了计算量，提高了计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性的示出了本发明一实施例的对抗环境下多无人机任务分配的博弈智能决策方法的流程图；

图2示意性的示出了本发明再一实施例的对抗环境下多无人机任务分配的博弈智能决策方法中有向图的示意图；

图3示意性的示出了本发明一实施例的对抗环境下多无人机任务分配的博弈智能决策系统的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请将无人机监测部署问题建模为一个领导者和一个跟随者的斯坦克尔伯格博弈模型。为了表述的一致性，本申请统一将巡逻机构称为监测方，其巡逻策略称为监测策略，将被监测方称为攻击方，其策略称为攻击策略。其中监测方作为领导者，首先承诺一个监测策略，攻击方作为跟随者在观察监测方的策略后选择使得自身收益最大的攻击策略。在斯坦克尔伯格博弈中，对于监测方的每个决策集，攻击方都会有一个或多个最优反应，因此本申请将攻击方的优化问题作为约束考虑到监测方的决策问题中。

本申请针对巡逻机构制定无人机监测策略的现实需求，提出了无人机监测策略部署问题，该问题既要考虑由无人机搭载设备的监测精度所带来的不确定性，还要考虑监测策略可以被攻击方观测的现实。同时，本申请提出一种紧凑形式的双层线性规划问题，将监测方策略表示为有向图中的流，进而将斯坦克尔伯格博弈模型转化为求解通过有向图的最优流的问题，解决了监测方策略空间的组合爆炸问题。

另外，本申请提出的攻击方劣策略剔除的方案，解决了攻击方的攻击策略数量随时间和空间快速增长的问题，在很大程度上减小了博弈的规模，能够将攻击方的攻击策略数量减少到原攻击策略数量的2/T，其中T指巡逻周期，即无人机监测周期。

下面对本申请提出的对抗环境下多无人机任务分配的博弈智能决策方法进行说明。

如图1所示，本申请的对抗环境下多无人机任务分配的博弈智能决策方法，包括如下步骤：

S100、获取无人机监测任务和无人机监测周期。

S110、基于所述无人机监测任务，确定多个监测区域，并基于所述无人机监测周期，确定多个监测时刻。

本步骤根据机监测任务，确定一组小区域，即确定一组监测区域，并将无人机监测周期离散成一系列的时间点，即监测时刻，每两个时间点的间隔均相等。

S120、基于所述多个监测区域和所述多个监测时刻，确定监测方的多个第一监测策略；其中所述第一监测策略包括每个无人机的一个监测路径，所述监测路径包括对应的无人机在所述无人机监测周期的每个监测时刻所通过的监测区域；所述监测方包括多个无人机。

上述确定监测方的多个第一监测策略，具体可以利用如下子步骤实现：

子步骤一、基于所述多个监测区域和所述多个监测时刻，构建有向图；其中，所述有向图中包括多个节点，每个节点的横坐标表示监测区域，纵坐标表示监测时刻；所述监测区域按照位置关系和预定的方向，连续排列。

子步骤二、针对所述有向图中的每个节点，确定该节点的路径节点。

该节点的路径节点包括以下至少一个：

与该节点具有相同的横坐标，并且比该节点的大一个监测时刻的第一节点；与第一节点具有相同的纵坐标，监测区域与第一节点的监测区域相邻，并且监测区域位于第一节点的监测区域左侧的第二节点；与第一节点具有相同的纵坐标，监测区域与第一节点的监测区域相邻，并且监测区域位于第一节点的监测区域右侧的第三节点。

子步骤三。针对所述有向图中的每个节点，将该节点与该节点对应的路径节点连接。

子步骤四、基于有向图中的各个节点以及节点之间的连线，确定监测方的多个第一监测策略。

在具体实施时，设待监测区域R包括r个小的监测区域，R＝{1,2,…,r}，对于区域i∈R，其相邻区域为N(i)，且i∈N(i)。无人机监测周期t＝{t₁,t₂,…,t_T}，即将无人机监测周期离散为T个时间点，相邻之间时间点之间为一个时间步长。假设无人机仅在时间点上行动，且向其相邻区域行动，无人机从一个监测区域移动到其相邻区域所需时间为一个时间步长。进一步通过构建有向图G＝(V,E)来表示参与人的策略(即攻击方的攻击策略和监测方的监测策略)，有向图的节点v＝(i,t_k)包括区域i和时间点t_k，当i″∈N(i′)且k″＝k′+1时，两个节点v′＝(i′,t_k′)和v″＝(i″,t_k″)间存在一条边e。具体地，以r＝4,T＝4为例，构建的有向图如图2所示，节点(3,t₂)和(2,t₃)之间的边表示无人机在t₂时间点从监测区域3出发，t₃时间点到达监测区域2，节点(3,t₂)和(3,t₃)之间的边e表示无人机在t₂与t₃时间点间在监测区域3巡逻。

对监测方而言，需要决策的是每架无人机的巡逻路线，即监测策略。设监测方有m架同构无人机，无人机w∈W＝{1,2,…,m}的监测策略是图2上的一条路径d_w＝((i₁,t₁),(i₂,t₂),…,(i_T,t_T))，防御方的一个纯策略(即第一监测策略)为m架无人机的m条路径，即d＝(d_w)_w∈W。

由于每架无人机在节点v＝(i,t_k)可选择的边e至少有两条，至多有三条，因此对于每架无人机可能的监测策略数在r·2^T-1和r·3^T-1之间，监测方纯策略的数量在(r·2^T-1)^m和(r·3^T-1)^m之间。

S130、基于所述多个监测区域和所述多个监测时刻，确定攻击方的多个攻击策略；其中所述攻击策略包括攻击方在连续的、至少两个监测时刻之间的时间段内通过一个监测区域的攻击路径。

攻击方的攻击策略是在一个连续的时间内通过某个区域i，对攻击方而言，需要决策的是在多少个时间步长内通过区域i。攻击方的一个纯策略(即攻击策略)a＝<(i,t_k),(i,t_k+l)>，a∈A，即攻击方在t_k到t_k+l之间的l时间步长内通过区域i，其中k≥1，k+l≤T。在图2中攻击方的一个纯策略即为连接同一区域的任意一条路径，因此攻击方纯策略的数量为本申请将攻击方的策略限制为纯策略。

S140、基于所述多个第一监测策略和所述多个攻击策略，形成多个策略对；其中所述策略对包括一个第一监测策略和一个攻击策略。

S150、针对每个策略对，确定该策略对中第一监测策略的每个无人机的监测路径中与该策略对攻击策略的攻击路径中相同的监测区域，得到该策略对对应的目标监测区域。

这里的目标监测区域为第一监测策略与攻击策略中具有的相同的监测区域。

S160、基于执行每个第一监测策略的概率和每个第一监测策略中覆盖每个监测区域的无人机的数量，确定监测方的第二监测策略。

本步骤具体可以利用如下子步骤实现：

子步骤一、针对每个第一监测策略，基于执行该第一监测策略的概率和该第一监测策略中覆盖每个监测区域的无人机的数量，确定该第一监测策略对应的期望监测策略。

这里，具体利用如下公式确定第一监控策略对应的期望监测策略：

f(v)＝∑_dx_dd(v)

式中，x表示执行第一监测策略d的概率分布；x_d表示执行第一监测策略d的一个概率，d(v)表示第一监测策略d中覆盖监测区域v的无人机的数量。

子步骤二、将所有期望监测策略作为所述监测方的第二监测策略。

监测方纯策略的数量在(r·2^T-1)^m和(r·3^T-1)^m之间，随着博弈规模的增大，可以发现防御方纯策略的数量呈指数级增长，使得双层规划问题的求解非常困难，为了解决策略数量庞大的问题，本步骤通过边际覆盖f(v)紧凑的表示监测方的混合策略，即期望监测策略：f(v)＝∑_dx_dd(v)，其中d(v)表示纯策略d中覆盖节点v的无人机的数量。因此，在给定监测方的混合策略x和对应的边际覆盖向量f＝{f(v)}_v∈V，以及攻击方的纯策略a，攻击方的期望收益，即下述第一期望概率模型为：

U_a(f,a)＝{Π_v∈a(1-δ(v))^f(v)}

S170、针对每个策略对，基于监测发现概率、对应的第一监测策略中每个无人机的监测路径中与对应的攻击策略的攻击路径中相同的监测区域，确定监测方在采取该策略对中的第一监测策略、并且攻击方在采取时该策略对中的攻击策略时，攻击方未被监测方发现的概率，得到该策略对对应的未发现概率；其中所述监测发现概率为监测方和攻击方在同一监测区域时，监测方发现攻击方的概率。

上述策略对对应的未发现概率，利用如下公式确定：

式中，m表示无人机的数量，VW表示策略对(d,a)对应的第一监测策略中无人机w的监测路径中与对应的目标攻击策略的攻击路径中相同的监测区域，δ(v)表示监测发现概率。

S180、基于每个策略对对应的未发现概率，以及第二监测策略，从所述攻击策略中筛选目标攻击策略。

这里具体可以利用如下步骤筛选目标攻击策略：

筛选得到的目标攻击策略是包括两个监测时刻的攻击策略。

S190、基于所述第二监测策略、所述目标攻击策略和所述监测发现概率，从所述第二监测策略中筛选目标监测策略，并根据确定的目标监测策略，确定每个无人机的监测路径。

本步骤具体可以通过如下子步骤实现：

子步骤一、基于多个目标攻击策略、监测发现概率和每个策略对的第一监测策略对应的期望监测策略，确定攻击方未被监测方发现的第一期望概率模型和监测方发现攻击方的第二期望概率模型。

第一期望概率模型：

U_a(f,a)＝{Π_v∈a(1-δ(v))^f(v)}

式中，δ(v)表示监测发现概率，a表示攻击策略。

当攻击方所选择的攻击策略与无人机的监测策略有相同的节点(即有相同的监测区域)时，攻击方可能被无人机发现。如果攻击方所选择的攻击策略与无人机的监测策略有一个相同的节点v时，设无人机发现攻击方的概率为δ(v)，δ(v)∈(0,1)。在给定监测方的纯策略(即第一监测策略)d＝(d_w)_w∈W，攻击方的纯策略(即攻击策略)a时，无人机w与攻击方的相同节点为V_w＝{v|v∈d_w∩a}，无人机w发现攻击方的概率为假设每架无人机之间是相互独立的，则在策略对(d,a)下，攻击方被发现的概率为因此攻击方的收益(攻击方未被监测方发现的概率)为：

给定监测方的混合策略x＝(x_d)_d∈D和攻击方的纯策略a，攻击方的期望收益为U_a(x_,a)＝Σ_dx_dU_a(d,a)。

在此基础上，结合边界覆盖，攻击方的期望收益为U_a(f,a)＝{П_v∈a(1-δ(v))^f(v)}。

子步骤二、基于第一期望概率模型和第二期望概率模型，确定在第一期望概率模型取得最大的概率值时，第二期望概率模型取得的最大概率值。

在具体实施时，利用如下公式，实现基于每个策略对对应第一期望概率模型和第二期望概率模型，确定在第一期望概率模型取得最大的概率值时，第二期望概率模型取得的最大概率值：

约束1：max_fU_d

约束2：U_d≤-U_a(f,a),

约束3：f(i,t_k)＝Σ_j∈N(i)z((i,t_k)_,(j,t_k+1)),

约束4：f(i,t_k)＝Σ_j∈N(i)z((j,t_k-1)_,(i,t_k)),

约束5：Σ_i∈Rf(i,t_k)＝m,k＝1,2,…,T

约束6：z((i,t_k),(j,t_k+1))≥0,

上式中，U_d表示第二期望概率值，U_a(f,a)表示第一期望概率模型，A表示攻击策略集合，a表示攻击策略，R表示监测区域集合，T表示最大监测时刻序号，N(i)表示监测区域i的相邻区域，f(i,t_k)表示在t_k时刻覆盖监测区域i的无人机的数量，z((i,t_k),(j,t_k+1))表示t_k时刻从监测区域i出发，t_k+1时刻到监测区域j的无人机的数量，z((j,t_k-1),(i,t_k))表示t_k-1时刻从监测区域j出发，t_k时刻到监测区域i的无人机的数量，m表示无人机的总数量。

上述约束1用于表明监测方会选择一个使得自身收益最大的策略，即选择一个使得攻击方收益最小的策略。

约束2用于表明目标监测策略的第二期望概率模型取得的概率值小于或等于目标监测策略的第一期望概率模型取得的概率值的负值。

约束3和约束4用于表明流量平衡，即针对目标监测策略的每个监测区域，进入该监测区域的无人机数量和飞出该监测区域的无人机数量相等。

约束5用于表明目标监测策略中在所述多个监测区域内的无人机的数量等于所述监测方的多个无人机。

约束6用于表明模型中变量的取值范围。

子步骤三、确定第二期望概率模型取得的最大概率值时对应的第二监测策略，得到所述目标监测策略。

上述实施例中，基于第一期望概率模型和第二期望概率模型，确定在第一期望概率模型取得最大的概率值时，第二期望概率模型取得的最大概率值，包括：

对于攻击方其目标是最大化U_a(f,a)，由于自然对数函数lnx(x＞0)是严格递增函数，且0＜δ(v)＜1，1-δ(v)＞0，最大化U_a相当于最大化lnU_a，因此

U_a(f,a)＝{Π_v∈a(1-δ(v))^f(v)}

lnU_a(f,a)＝ln{{Π_v∈a(1-δ(v))^f(v)}}

＝ln{Π_v∈a(1-δ(v))^f(v)}

＝∑_v∈aln(1-δ(v))^f(v)

＝∑_v∈af(v)ln(1-δ(v))

约束2经过转化即为

U_d′≤-{∑_v∈af(v)ln(1-δ(v))},

目标函数为

max_fU_d′

其中

因此，求解最优的边际覆盖就转化为求解线性规划问题，在求解该线性问题的最优解后，利用上述公式计算即可得到无人机的最优边际覆盖，即确定目标监测策略。

解决策略空间庞大的有效方法是通过一定的技术减小博弈的规模，本申请引入有向图对监测方的策略形式进行转化，这种转化在很大程度上减少了原问题的变量。本申请实施例提供了一种紧凑形式的双层线性规划问题，将监测御方策略表示为有向图中的流，进而将斯坦克尔伯格博弈模型转化为求解通过有向图的最优流的问题，解决了防御方策略空间的组合爆炸问题。

上述对抗环境下多无人机任务分配的博弈智能决策方法，构建了无人机巡逻部署问题的斯坦克尔伯格博弈模型，在该模型中，防御方以多架无人机的时间和空间依赖的路径作为监测策略，攻击方以一段连续时间的攻击作为攻击策略，解决了现有技术中无法在攻击方能够观测已实施的巡逻策略的前提下，制定有效的巡逻策略来以最大的概率发现攻击方的技术问题。

同时，上述实施的方法提供了一种攻击方劣策略剔除方法，解决了攻击方纯策略数量随时间和空间快速增长的问题，能够将攻击方的策略数量减少到原纯策略数量的其中T指巡逻周期。

下面对攻击方的攻击策略剔除的原理进行说明。

由上面的陈述可知，攻击方的纯策略的数量为可以发现攻击方纯策略的数量随时间周期T和区域数量r呈几何式的增长。

本申请将攻击策略中恶劣策略剔除，其中，恶劣策略是指不管其它参与人的策略如何变化，策略s_i给参与人i带来的收益总是小于或等于另一策略s_i′带来的收益，即则策略s_i′是策略s_i的弱劣策略。

本申请通过边际覆盖f(v)紧凑的表示监测方的混合策略，f(v)＝∑_dx_dd(v)，其中d(v)表示监测方的第一监测策略d中覆盖检测区域v的无人机的数量。因此，在给定监测方的混合策略x(即第二监测策略)和对应的边际覆盖向量f＝{f(v)}_v∈V，以及攻击方的纯策略a，攻击方的期望收益为：

U_a(f,a)＝{Π_v∈a(1-δ(v))^f(v)}

设分别表示攻击方与区域i相关的时间步长为1,2,…,l的纯策略，其中k≥1，k+l≤T，在给定监测方的边际覆盖向量f＝{f(v)}_v∈V，则这l策略对应的攻击方收益之间的关系为

对于攻击方的l个策略

任取监测方的边际覆盖向量f＝{f(v)}_v∈V，策略对应的攻击方的收益为策略对应的攻击方的收益为

由于指数函数a^x(0＜a＜1)当x≥0时的取值范围为0＜a^x≤1，又0＜δ(v)＜1，故0＜1-δ(v)＜1，又由约束f(i,t_k)＝∑_j∈N(i)z((i,t_k),(j,t_k+1)),和f(i,t_k)＝∑_j∈N(i)z((j,t_k-1),(i,t_k)),可知f(v)≥0，故因此

同理可得

因此

对于同一区域i，时间步长大于1的攻击方的纯策略为时间步长为1的攻击方纯策略的弱劣策略。

由于对于同一区域i，任取监测方的某边际覆盖向量，时间步长大于1的策略给攻击方带来的收益总是小于或等于时间步长为1的策略带来的收益，因此，时间步长大于1的攻击方的纯策略为时间步长为1的攻击方纯策略的弱劣策略。

在本文中由于攻击方的策略为纯策略，剔除时间步长大于1的纯策略，采用时间步长为1的纯策略作为攻击方的目标攻击策略，将攻击方纯策略的数量从减少到(T-1)·r，此时攻击方纯策略的数量为剔除前纯策略数量的

对应于上述对抗环境下多无人机任务分配的博弈智能决策方法，本申请实施例提供了一种对抗环境下多无人机任务分配的博弈智能决策系统，具体地，如图3所示，包括：

信息获取模块300，用于获取无人机监测任务和无人机监测周期；

监测信息确定模块310，用于基于所述无人机监测任务，确定多个监测区域，并基于所述无人机监测周期，确定多个监测时刻；

第一策略确定模块320，用于基于所述多个监测区域和所述多个监测时刻，确定监测方的多个第一监测策略；基于所述多个监测区域和所述多个监测时刻，确定攻击方的多个攻击策略；其中所述攻击策略包括攻击方在连续的、至少两个监测时刻之间的时间段内通过一个监测区域的攻击路径；其中所述第一监测策略包括每个无人机的一个监测路径，所述监测路径包括对应的无人机在所述无人机监测周期的每个监测时刻所通过的监测区域；所述监测方包括多个无人机；

策略对确定模块330，用于基于所述多个第一监测策略和所述多个攻击策略，形成多个策略对；其中所述策略对包括一个第一监测策略和一个攻击策略；

区域筛选模块340，用于针对每个策略对，确定该策略对中第一监测策略的每个无人机的监测路径中与该策略对攻击策略的攻击路径中相同的监测区域，得到该策略对对应的目标监测区域；

第二策略确定模块350，用于基于执行每个第一监测策略的概率和每个第一监测策略中覆盖每个监测区域的无人机的数量，确定监测方的第二监测策略；

第三策略确定模块360，用于针对每个策略对，基于监测发现概率、对应的第一监测策略中每个无人机的监测路径中与对应的攻击策略的攻击路径中相同的监测区域，确定监测方在采取该策略对中的第一监测策略、并且攻击方在采取时该策略对中的攻击策略时，攻击方未被监测方发现的概率，得到该策略对对应的未发现概率；基于每个策略对对应的未发现概率，以及第二监测策略，从所述攻击策略中筛选目标攻击策略；其中所述监测发现概率为监测方和攻击方在同一监测区域时，监测方发现攻击方的概率；

目标策略确定模块370，用于基于所述第二监测策略、所述目标攻击策略和所述监测发现概率，从所述第二监测策略中筛选目标监测策略；

监测路径确定模块380，用于根据确定的目标监测策略，确定每个无人机的监测路径。

本发明实施例的方法中的每个步骤是于本发明实施例的系统在确定目标监测策略过程中的步骤一一对应的，本发明实施例的系统在确定目标监测策略过程中每个步骤均包含在本发明实施例的方法中，因此，对于重复的部分，这里不再进行赘述。

本发明实施例的方法中的每个步骤是于本发明实施例的系统在用负荷优化调度过程中的步骤一一对应的，本发明实施例的系统在负荷优化调度过程中每个步骤均包含在本发明实施例的方法中，因此，对于重复的部分，这里不再进行赘述。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种对抗环境下多无人机任务分配的博弈智能决策方法，其特征在于，包括：

获取无人机监测任务和无人机监测周期；

根据确定的目标监测策略，确定每个无人机的监测路径。

2.根据权利要求1所述的方法，其特征在于，所述基于执行每个第一监测策略的概率和每个第一监测策略中覆盖每个监测区域的无人机的数量，确定监测方的第二监测策略，包括：

将所有期望监测策略作为所述监测方的第二监测策略。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第二监测策略、目标攻击策略和监测发现概率，从所述第二监测策略中筛选目标监测策略，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法利用如下公式确定第一期望概率模型：

U_a(f,a)＝{Π_v∈a(1-δ(v))^f(v)}

式中，δ(v)表示监测发现概率，a表示攻击策略。

5.公式根据权利要求4所述的方法，其特征在于，所述方法利用如下公式，实现基于每个策略对对应第一期望概率模型和第二期望概率模型，确定在第一期望概率模型取得最大的概率值时，第二期望概率模型取得的最大概率值：

max_fU_d

∑_i∈Rf(i,t_k)＝m,k＝1,2,…,T

6.根据权利要求3所述的方法，其特征在于，基于第一期望概率模型和第二期望概率模型，确定在第一期望概率模型取得最大的概率值时，第二期望概率模型取得的最大概率值，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于每个策略对对应的未发现概率，以及第二监测策略，从所述攻击策略中筛选目标攻击策略，包括：

8.根据权利要求1或7所述的方法，其特征在于，所述目标攻击策略包括两个监测时刻。

9.根据权利要求1所述的方法，其特征在于，所述策略对对应的未发现概率，利用如下公式确定：

10.一种对抗环境下多无人机任务分配的博弈智能决策系统，其特征在于，包括：