CN110411278B

CN110411278B - 一种部署多无人机的纳什均衡博弈智能决策方法及系统

Info

Publication number: CN110411278B
Application number: CN201910534760.3A
Authority: CN
Inventors: 胡笑旋; 雷星; 罗贺; 王国强; 马滢滢; 王菊; 李晓多; 夏维; 靳鹏; 马华伟
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2021-11-23
Anticipated expiration: 2039-06-20
Also published as: CN110411278A

Abstract

本发明提供一种部署多无人机的纳什均衡博弈智能决策方法及系统。其中，首先确定监测方的多个第一监测策略和攻击方的多个攻击策略，之后根据执行每个第一监测策略的概率，确定多个第二监测策略；之后基于包括一个第一监测策略和一个攻击策略的策略对的未被发现概率，以及第二监测策略，从攻击策略中筛选目标攻击策略，最后基于多个第二监测策略、多个目标攻击策略和监测发现概率，从第二监测策略中筛选目标监测策略对攻击方进行监测。上述技术方案利用斯坦克尔伯格博弈模型，能够在攻击方观测已实施的无人机部署方案的前提下，制定有效的无人机部署方案来以最大的概率发现攻击方，同时能够解决攻击方的攻击策略数量随时间和空间快速增长的问题。

Description

一种部署多无人机的纳什均衡博弈智能决策方法及系统

技术领域

本发明涉及监测和安保领域，具体涉及一种部署多无人机的纳什均衡博弈智能决策方法及系统。

背景技术

无人机能够在多种环境下自主的完成给定任务，有效降低人力成本。当前利用多架无人机对某一区域进行巡逻已经逐渐成为安保中的重要手段之一。设计有效的无人机部署方案来部署无人机的巡逻时间和地点，将能够提高监测到监测区域内攻击者的可能性。

无人机的部署方案包括任意巡逻周期内每架无人机的巡逻时间和巡逻地点。由于需要提前制定无人机的部署方案，并且攻击方可以观测到已实施的无人机部署方案，因此部署方案的制定不仅需要考虑无人机搭载设备的监测精度，还要考虑攻击方可能的攻击策略。另外对于相邻的两个巡逻周期，无人机两次巡逻的地点只可能是相同或者相邻的。当某架无人机的部署方案与攻击方选择通过某一监测区域的时间和地点存在交集时，无人机将以一定的概率监测到攻击方，否则监测失败。

目前，无法在攻击方能够观测已实施的部署方案的前提下，制定有效的无人机部署方案来以最大的概率发现攻击方，同时，现有技术中在确定无人机部署方案时，是基于所有的攻击策略确定的，计算量大，效率低。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种部署多无人机的纳什均衡博弈智能决策方法及系统，解决了现有技术中无法在攻击方能够观测已实施的无人机部署方案的前提下，制定有效的无人机部署方案来以最大的概率发现攻击方，同时，解决了现有技术中基于所有的攻击策略确定无人机部署方案所产生的计算量大，效率低的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本申请实施例提供了一种部署多无人机的纳什均衡博弈智能决策方法，包括：

获取无人机监测任务和无人机监测周期；

基于所述无人机监测任务，确定多个监测区域，并基于所述无人机监测周期，确定多个监测时刻；

基于所述多个监测区域和所述多个监测时刻，确定监测方的多个第一监测策略；其中所述第一监测策略包括每个无人机的一个监测路径，所述监测路径包括对应的无人机在所述无人机监测周期的每个监测时刻所通过的监测区域；所述监测方包括多个无人机；

基于执行每个第一监测策略的概率，确定监测方的多种第二监测策略；

基于所述多个监测区域和所述多个监测时刻，确定攻击方的多个攻击策略；其中所述攻击策略包括攻击方在连续的、至少两个监测时刻之间的时间段内通过一个监测区域的攻击路径；

基于所述多个第一监测策略和所述多个攻击策略，形成多个策略对；其中所述策略对包括一个第一监测策略和一个攻击策略；

针对每个策略对，基于监测发现概率、对应的第一监测策略中每个无人机的监测路径中与对应的攻击策略的攻击路径中相同的监测区域，确定监测方在采取该策略对中的第一监测策略、并且攻击方在采取时该策略对中的攻击策略时，攻击方未被监测方发现的概率，得到该策略对对应的未发现概率；其中所述监测发现概率为监测方和攻击方在同一监测区域时，监测方发现攻击方的概率；

基于每个策略对对应的未发现概率，以及第二监测策略，从所述攻击策略中筛选目标攻击策略；

基于所述第二监测策略、所述目标攻击策略和所述监测发现概率，从所述第二监测策略中筛选目标监测策略；

根据确定的目标监测策略，确定每个无人机的部署方案，所述部署方案包括对应无人机的监测路径。

在一种可能的实施方式中，所述基于每个策略对对应的未发现概率，从所述攻击策略中筛选目标攻击策略，包括：

基于每个策略对对应的未发现概率，从所述攻击策略中筛选监测方在采取任一种第一监测策略时，攻击方未被监测方发现的概率均大于攻击方未采取其他攻击策略时被监测方发现的概率的攻击策略，得到所述目标攻击策略。

在一种可能的实施方式中，所述目标攻击策略包括两个监测时刻。

在一种可能的实施方式中，所述基于所述多个监测区域和所述多个监测时刻，确定监测方的多个第一监测策略，包括：

基于所述多个监测区域和所述多个监测时刻，构建有向图；其中，所述有向图中包括多个节点，每个节点的横坐标表示监测区域，纵坐标表示监测时刻；所述监测区域按照位置关系和预定的方向，连续排列；

针对所述有向图中的每个节点，确定该节点的路径节点；

针对所述有向图中的每个节点，将该节点与该节点对应的路径节点连接；

基于有向图中的各个节点以及节点之间的连线，确定监测方的多个第一监测策略。

在一种可能的实施方式中，所述该节点的路径节点包括以下至少一个：

与该节点具有相同的横坐标，并且比该节点的大一个监测时刻的第一节点；与第一节点具有相同的纵坐标，监测区域与第一节点的监测区域相邻，并且监测区域位于第一节点的监测区域左侧的第二节点；与第一节点具有相同的纵坐标，监测区域与第一节点的监测区域相邻，并且监测区域位于第一节点的监测区域又侧的第三节点。

在一种可能的实施方式中，所述基于所述第二监测策略、所述目标攻击策略和所述监测发现概率，从所述第二监测策略中筛选目标监测策略，包括：

基于所述多个第一监测策略和所述目标攻击策略，形成多个筛选策略对；其中所述筛选策略对包括一个第一监测策略和一个目标攻击策略；

针对每个筛选策略对，基于所述监测发现概率、对应的第一监测策略中每个无人机的监测路径中与对应的目标攻击策略的攻击路径中相同的监测区域，确定攻击方未被监测方发现的概率，得到该筛选策略对对应的未发现概率；

基于每个筛选策略对对应的未发现概率、多个第二监测策略，确定攻击方未被监测方发现的第一期望概率模型和监测方发现攻击方的第二期望概率模型；

基于第一期望概率模型和第二期望概率模型，确定在第一期望概率模型取得最大的概率值时，第二期望概率模型取得的最大概率值；

确定第二期望概率模型取得的最大概率值时对应的第二监测策略，得到所述目标监测策略。

在一种可能的实施方式中，所述筛选策略对对应的未发现概率，利用如下公式确定：

式中，m表示无人机的数量，VW表示筛选策略对(d,a)对应的第一监测策略中无人机w的监测路径中与对应的攻击策略的攻击路径中相同的监测区域，δ(v)表示监测发现概率。

第二方面，本申请实施例提供了一种部署多无人机的纳什均衡博弈智能决策系统，包括：

信息获取模块，用于获取无人机监测任务和无人机监测周期；

监测信息确定模块，用于基于所述无人机监测任务，确定多个监测区域，并基于所述无人机监测周期，确定多个监测时刻；

第一策略确定模块，用于基于所述多个监测区域和所述多个监测时刻，确定监测方的多个第一监测策略；其中所述第一监测策略包括每个无人机的一个监测路径，所述监测路径包括对应的无人机在所述无人机监测周期的每个监测时刻所通过的监测区域；所述监测方包括多个无人机；

第二策略确定模块，用于基于执行每个第一监测策略的概率，确定监测方的多种第二监测策略；

攻击策略确定模块，用于基于所述多个监测区域和所述多个监测时刻，确定攻击方的多个攻击策略；其中所述攻击策略包括攻击方在连续的、至少两个监测时刻之间的时间段内通过一个监测区域的攻击路径；

第一策略对确定模块，用于基于所述多个第一监测策略和所述多个攻击策略，形成多个策略对；其中所述策略对包括一个第一监测策略和一个攻击策略；

第一概率确定模块，用于针对每个策略对，基于监测发现概率、对应的第一监测策略中每个无人机的监测路径中与对应的攻击策略的攻击路径中相同的监测区域，确定监测方在采取该策略对中的第一监测策略、并且攻击方在采取时该策略对中的攻击策略时，攻击方未被监测方发现的概率，得到该策略对对应的未发现概率；其中所述监测发现概率为监测方和攻击方在同一监测区域时，监测方发现攻击方的概率；

攻击策略筛选模块，用于基于每个策略对对应的未发现概率，以及第二监测策略，从所述攻击策略中筛选目标攻击策略；

目标策略确定模块，用于基于所述第二监测策略、所述目标攻击策略和所述监测发现概率，从所述第二监测策略中筛选目标监测策略；

监测路径确定模块，用于根据确定的目标监测策略，确定每个无人机的部署方案，所述部署方案包括对应无人机的监测路径。

在一种可能的实施方式中，所述攻击策略筛选模块具体用于：

(三)有益效果

本发明实施例提供了一种部署多无人机的纳什均衡博弈智能决策方法及系统。具备以下有益效果：

本发明实施例根据监测区域和监测时刻，确定监测方的多个第一监测策略和攻击方的多个攻击策略，之后根据第一监测策略和执行每个第一监测策略的概率，确定监测方的多个第二监测策略；之后基于包括一个第一监测策略和一个攻击策略的策略对的未被发现概率，以及第二监测策略，从攻击策略中筛选目标攻击策略，最后基于监测方的多个第二监测策略、攻击方的多个目标攻击策略和监测发现概率，从第二监测策略中筛选目标监测策略对攻击方进行监测。上述技术方案利用斯坦克尔伯格博弈模型进行求解，解决了现有技术中无法在攻击方能够观测已实施的无人机部署方案的前提下，制定有效的无人机部署方案来以最大的概率发现攻击方的技术问题，同时，上述技术方案基于策略对的未被发现概率，能够从所有攻击策略中剔除恶略策略，解决了攻击方的攻击策略数量随时间和空间快速增长的问题，减小了计算量，提高了计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性的示出了本发明一实施例的部署多无人机的纳什均衡博弈智能决策方法的流程图；

图2示意性的示出了本发明再一实施例的部署多无人机的纳什均衡博弈智能决策方法中的有向图的示意图；

图3示意性的示出了本发明一实施例的部署多无人机的纳什均衡博弈智能决策系统的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请将无人机监测部署问题建模为一个领导者和一个跟随者的斯坦克尔伯格博弈模型。为了表述的一致性，本申请统一将巡逻机构称为监测方，其无人机部署方案称为监测策略，将被监测方称为攻击方，其策略称为攻击策略。其中监测方作为领导者，首先承诺一个监测策略，攻击方作为跟随者在观察监测方的策略后选择使得自身收益最大的攻击策略。在斯坦克尔伯格博弈中，对于监测方的每个决策集，攻击方都会有一个或多个最优反应，因此本申请将攻击方的优化问题作为约束考虑到监测方的决策问题中。

本申请针对巡逻机构制定无人机监测策略的现实需求，提出了无人机监测策略部署问题，该问题既要考虑由无人机搭载设备的监测精度所带来的不确定性，还要考虑监测策略可以被攻击方观测的现实。另外，本申请一种攻击方劣策略剔除的方案，解决了攻击方的攻击策略数量随时间和空间快速增长的问题，在很大程度上减小了博弈的规模，能够将攻击方的攻击策略数量减少到原攻击策略数量的2/T，其中T指巡逻周期，即无人机监测周期。

下面对本申请提出的部署多无人机的纳什均衡博弈智能决策方法进行说明。

如图1所示，本申请的部署多无人机的纳什均衡博弈智能决策方法，包括如下步骤：

S100、获取无人机监测任务和无人机监测周期。

S110、基于所述无人机监测任务，确定多个监测区域，并基于所述无人机监测周期，确定多个监测时刻。

本步骤根据机监测任务，确定一组小区域，即确定一组监测区域，并将无人机监测周期离散成一系列的时间点，即监测时刻，每两个时间点的间隔均相等。

S120、基于所述多个监测区域和所述多个监测时刻，确定监测方的多个第一监测策略；其中所述第一监测策略包括每个无人机的一个监测路径，所述监测路径包括对应的无人机在所述无人机监测周期的每个监测时刻所通过的监测区域；所述监测方包括多个无人机。

上述确定监测方的多个第一监测策略，具体可以利用如下子步骤实现：

子步骤一、基于所述多个监测区域和所述多个监测时刻，构建有向图；其中，所述有向图中包括多个节点，每个节点的横坐标表示监测区域，纵坐标表示监测时刻；所述监测区域按照位置关系和预定的方向，连续排列。

子步骤二、针对所述有向图中的每个节点，确定该节点的路径节点。

该节点的路径节点包括以下至少一个：

与该节点具有相同的横坐标，并且比该节点的大一个监测时刻的第一节点；与第一节点具有相同的纵坐标，监测区域与第一节点的监测区域相邻，并且监测区域位于第一节点的监测区域左侧的第二节点；与第一节点具有相同的纵坐标，监测区域与第一节点的监测区域相邻，并且监测区域位于第一节点的监测区域右侧的第三节点。

子步骤三。针对所述有向图中的每个节点，将该节点与该节点对应的路径节点连接。

子步骤四、基于有向图中的各个节点以及节点之间的连线，确定监测方的多个第一监测策略。

在具体实施时，设待监测区域R包括r个小的监测区域，R＝{1,2,…,r}，对于区域i∈R，其相邻区域为N(i)，且i∈N(i)。无人机监测周期t＝{t₁,t₂,…,t_T}，即将无人机监测周期离散为T个时间点，相邻之间时间点之间为一个时间步长。假设无人机仅在时间点上行动，且向其相邻区域行动，无人机从一个监测区域移动到其相邻区域所需时间为一个时间步长。进一步通过构建有向图G＝(V,E)来表示参与人的策略(即攻击方的攻击策略和监测方的监测策略)，有向图的节点v＝(i,t_k)包括区域i和时间点t_k，当i″∈N(i′)且k″＝k′+1时，两个节点v′＝(i′,t_k′)和v″＝(i″,t_k″)间存在一条边e。具体地，以r＝4,T＝4为例，构建的有向图如图2所示，节点(3,t₂)和(2,t₃)之间的边表示无人机在t₂时间点从监测区域3出发，t₃时间点到达监测区域2，节点(3,t₂)和(3,t₃)之间的边e表示无人机在t₂与t₃时间点间在监测区域3巡逻。

对监测方而言，需要决策的是每架无人机的巡逻路线，即监测策略。设监测方有m架同构无人机，无人机w∈W＝{1,2,…,m}的监测策略是图2上的一条路径d_w＝((i₁,t₁),(i₂,t₂),…,(i_T,t_T))，防御方的一个纯策略(即第一监测策略)为m架无人机的m条路径，即d＝(d_w)_w∈W。

由于每架无人机在节点v＝(i,t_k)可选择的边e至少有两条，至多有三条，因此对于每架无人机可能的监测策略数在r·2^T-1和r·3^T-1之间，监测方纯策略的数量在(r·2^T-1)^m和(r·3^T-1)^m之间。

S130、基于执行每个第一监测策略的概率，确定监测方的多种第二监测策略。

所有纯策略d∈D的概率分布x＝(x_d)_d∈D为防御方的一个混合策略，x_d为选择策略d的概率，0≤x_d≤1且

S140、基于所述多个监测区域和所述多个监测时刻，确定攻击方的多个攻击策略；其中所述攻击策略包括攻击方在连续的、至少两个监测时刻之间的时间段内通过一个监测区域的攻击路径。

攻击方的攻击策略是在一个连续的时间内通过某个区域i，对攻击方而言，需要决策的是在多少个时间步长内通过区域i。攻击方的一个纯策略(即攻击策略)a＝<(i,t_k),(i,t_k+l)>，a∈A，即攻击方在t_k到t_k+l之间的l时间步长内通过区域i，其中k≥1，k+l≤T。在图2中攻击方的一个纯策略即为连接同一区域的任意一条路径，因此攻击方纯策略的数量为

本申请将攻击方的策略限制为纯策略。

S150、基于所述多个第一监测策略和所述多个攻击策略，形成多个策略对；其中所述策略对包括一个第一监测策略和一个攻击策略。

S160、针对每个策略对，基于监测发现概率、对应的第一监测策略中每个无人机的监测路径中与对应的攻击策略的攻击路径中相同的监测区域，确定监测方在采取该策略对中的第一监测策略、并且攻击方在采取时该策略对中的攻击策略时，攻击方未被监测方发现的概率，得到该策略对对应的未发现概率；其中所述监测发现概率为监测方和攻击方在同一监测区域时，监测方发现攻击方的概率。

策略对的未发现概率的计算方法与下述步骤180中的筛选策略对的未发现概率的计算方法相同。这里不再进行赘述。

S170、基于每个策略对对应的未发现概率，以及第二监测策略，从所述攻击策略中筛选目标攻击策略。

这里具体可以利用如下步骤筛选目标攻击策略：

筛选得到的目标攻击策略是包括两个监测时刻的攻击策略。

S180、基于所述第二监测策略、所述目标攻击策略和所述监测发现概率，从所述第二监测策略中筛选目标监测策略。

这里具体可以利用如下子步骤筛选目标监测策略：

子步骤一、基于所述多个第一监测策略和所述目标攻击策略，形成多个筛选策略对；其中所述筛选策略对包括一个第一监测策略和一个目标攻击策略。

子步骤二、针对每个筛选策略对，基于所述监测发现概率、对应的第一监测策略中每个无人机的监测路径中与对应的目标攻击策略的攻击路径中相同的监测区域，确定攻击方未被监测方发现的概率，得到该筛选策略对对应的未发现概率。

在具体实施时，可以利用如下公式确定策略对对应的未发现概率：

式中，m表示无人机的数量，VW表示策略对(d,a)对应的第一监测策略中无人机w的监测路径中与对应的攻击策略的攻击路径中相同的监测区域，δ(v)表示监测发现概率，d表示第一监测策略，a表示攻击策略，U_a(d,a)表示筛选策略对(d,a)对应的未发现概率。

子步骤三、基于每个筛选策略对对应的未发现概率、多个第二监测策略，确定攻击方未被监测方发现的第一期望概率模型和监测方发现攻击方的第二期望概率模型。

所述第一期望概率模型为：

U_a(x,a)＝∑_dx_dU_a(d,a)

式中，d表示第一监测策略，a表示目标攻击策略，U_a(d,a)表示筛选策略对(d,a)对应的未发现概率；x表示执行第一监测策略d的概率分布；x_d表示执行第一监测策略d的一个概率；

所述第二期望概率模型：

U_d(x,a)＝-U_a(x,a)

子步骤四、基于第一期望概率模型和第二期望概率模型，确定在第一期望概率模型取得最大的概率值时，第二期望概率模型取得的最大概率值。

子步骤五、确定第二期望概率模型取得的最大概率值时对应的第二监测策略，得到所述目标监测策略。

S190、根据确定的目标监测策略，确定每个无人机的部署方案，所述部署方案包括对应无人机的监测路径。

上述在确定目标监测策略时，具体可以基于以下步骤实现：

当攻击方所选择的攻击策略与无人机的监测策略有相同的节点(即有相同的监测区域)时，攻击方可能被无人机发现。如果攻击方所选择的攻击策略与无人机的监测策略有一个相同的节点v时，设无人机发现攻击方的概率为δ(v)，δ(v)∈(0,1)。在给定监测方的纯策略(即第一监测策略)d＝(d_w)_w∈W，攻击方的纯策略(即攻击策略)a时，无人机w与攻击方的相同节点为V_w＝{v|v∈d_w∩a}，无人机w发现攻击方的概率为

假设每架无人机之间是相互独立的，则在策略对(d,a)下，攻击方被发现的概率为

因此攻击方的收益(攻击方未被监测方发现的概率)为：

给定监测方的混合策略x＝(x_d)_d∈D和攻击方的纯策略a，攻击方的期望收益(即第一期望概率模型)为U_a(x,a)＝∑_dx_dU_a(d,a)，则监测方的期望收益(即第一期望概率模型)为U_d(x,a)＝-U_a(x,a)。

在零和博弈的假设下，强斯坦克尔伯格均衡解等价于在攻击方以最优策略响应时监测方最大化自身的收益。策略对<x,g>是均衡解当其满足：

其中g(x)表示攻击方的最优反应函数，g(x)＝{a∈A}。在双层规划问题的设置中，第一个目标函数及其适当的约束构成第一层优化问题，第二层优化问题以适当的目标函数和约束形式作为第一层优化问题的嵌套问题。这与斯坦克尔伯格博弈中领导者首先承诺一个混合策略，然后跟随者观察后进行决策是一致的。

因此上述条件可以描述为双层规划问题：

max_x,yU_d(x,y)

y＝g(x)

x∈[0,1]^|D|

max_yU_a(x,y)

y∈{0,1}^|A|

其中y_a表示选择策略a的概率，这个双层规划问题是从监测方出发，将监测方的优化问题作为第一层优化问题，攻击方的目标函数和约束作为防御方优化问题的嵌套问题。

根据上述上层规划问题确定了在攻击方目标函数取得最大值时，即第一期望概率模型取得的最大概率值时，监测方的第二期望概率模型取得的最大概率值，并确定第二期望概率模型取得的最大概率值时对应的第二监测策略，得到上述目标监测策略。

上述多无人机任务分配的纳什均衡博弈智能决策方法，构建了无人机巡逻部署问题的斯坦克尔伯格博弈模型，在该模型中，防御方以多架无人机的时间和空间依赖的路径作为监测策略，攻击方以一段连续时间的攻击作为攻击策略，解决了现有技术中无法在攻击方能够观测已实施的无人机部署方案的前提下，制定有效的无人机部署方案来以最大的概率发现攻击方的技术问题。

同时，上述实施的方法提供了一种攻击方劣策略剔除方法，解决了攻击方纯策略数量随时间和空2间快速增长的问题，能够将攻击方的策略数量减少到原纯策略数量的

其中T指巡逻周期。

下面对攻击方的攻击策略剔除的原理进行说明。

由上面的陈述可知，攻击方的纯策略的数量为

可以发现攻击方纯策略的数量随时间周期T和区域数量r呈几何式的增长。

本申请将攻击策略中恶劣策略剔除，其中，恶劣策略是指不管其它参与人的策略如何变化，策略s_i给参与人i带来的收益总是小于或等于另一策略s_i′带来的收益，即

则策略s_i′是策略s_i的弱劣策略。

本申请通过边际覆盖f(v)紧凑的表示监测方的混合策略，f(v)＝∑_dx_dd(v)，其中d(v)表示监测方的第一监测策略d中覆盖检测区域v的无人机的数量。因此，在给定监测方的混合策略x(即第二监测策略)和对应的边际覆盖向量f＝{f(v)}_v∈V，以及攻击方的纯策略a，攻击方的期望收益为：

U_a(f,a)＝{Π_v∈a(1-δ(v))^f(v)}

设

分别表示攻击方与区域i相关的时间步长为1,2,…,l的纯策略，其中k≥1，k+l≤T，在给定监测方的边际覆盖向量f＝{f(v)}_v∈V，则这l策略对应的攻击方收益

之间的关系为

对于攻击方的l个策略

任取监测方的边际覆盖向量f＝{f(v)}_v∈V，策略

对应的攻击方的收益为

策略

对应的攻击方的收益为

由于指数函数a^x(0＜a＜1)当x≥0时的取值范围为0＜a^x≤1，又0＜δ(v)＜1，故0＜1-δ(v)＜1，又由约束

和

可知f(v)≥0，故

因此

同理可得

因此

对于同一区域i，时间步长大于1的攻击方的纯策略为时间步长为1的攻击方纯策略的弱劣策略。

由于对于同一区域i，任取监测方的某边际覆盖向量，时间步长大于1的策略给攻击方带来的收益总是小于或等于时间步长为1的策略带来的收益，因此，时间步长大于1的攻击方的纯策略为时间步长为1的攻击方纯策略的弱劣策略。

在本文中由于攻击方的策略为纯策略，剔除时间步长大于1的纯策略，采用时间步长为1的纯策略作为攻击方的目标攻击策略，将攻击方纯策略的数量从

减少到(T-1)·r，此时攻击方纯策略的数量为剔除前纯策略数量的

对应于上述部署多无人机的纳什均衡博弈智能决策方法，本申请实施例提供了一种部署多无人机的纳什均衡博弈智能决策系统，具体地，如图3所示，包括：

信息获取模块300，用于获取无人机监测任务和无人机监测周期；

监测信息确定模块310，用于基于所述无人机监测任务，确定多个监测区域，并基于所述无人机监测周期，确定多个监测时刻；

第一策略确定模块320，用于基于所述多个监测区域和所述多个监测时刻，确定监测方的多个第一监测策略；其中所述第一监测策略包括每个无人机的一个监测路径，所述监测路径包括对应的无人机在所述无人机监测周期的每个监测时刻所通过的监测区域；所述监测方包括多个无人机；

第二策略确定模块330，用于基于执行每个第一监测策略的概率，确定监测方的多种第二监测策略；

攻击策略确定模块340，用于基于所述多个监测区域和所述多个监测时刻，确定攻击方的多个攻击策略；其中所述攻击策略包括攻击方在连续的、至少两个监测时刻之间的时间段内通过一个监测区域的攻击路径；

第一策略对确定模块350，用于基于所述多个第一监测策略和所述多个攻击策略，形成多个策略对；其中所述策略对包括一个第一监测策略和一个攻击策略；

第一概率确定模块360，用于针对每个策略对，基于监测发现概率、对应的第一监测策略中每个无人机的监测路径中与对应的攻击策略的攻击路径中相同的监测区域，确定监测方在采取该策略对中的第一监测策略、并且攻击方在采取时该策略对中的攻击策略时，攻击方未被监测方发现的概率，得到该策略对对应的未发现概率；其中所述监测发现概率为监测方和攻击方在同一监测区域时，监测方发现攻击方的概率；

攻击策略筛选模块370，用于基于每个策略对对应的未发现概率，以及第二监测策略，从所述攻击策略中筛选目标攻击策略；

目标策略确定模块380，用于基于所述第二监测策略、所述目标攻击策略和所述监测发现概率，从所述第二监测策略中筛选目标监测策略；

监测路径确定模块390，用于根据确定的目标监测策略，确定每个无人机的部署方案，所述部署方案包括对应无人机的监测路径。

在一些实施例中，上述攻击策略筛选模块370具体用于：

上述目标攻击策略包括两个监测时刻。

本发明实施例的方法中的每个步骤是于本发明实施例的系统在确定目标监测策略过程中的步骤一一对应的，本发明实施例的系统在确定目标监测策略过程中每个步骤均包含在本发明实施例的方法中，因此，对于重复的部分，这里不再进行赘述。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种部署多无人机的纳什均衡博弈智能决策方法，其特征在于，包括：

获取无人机监测任务和无人机监测周期；

基于执行每个第一监测策略的概率，确定监测方的多种第二监测策略，包括：第二监测策略为执行第一监测策略的概率分布；

针对每个策略对，基于监测发现概率、对应的第一监测策略中每个无人机的监测路径中与对应的攻击策略的攻击路径中相同的监测区域，确定监测方在采取该策略对中的第一监测策略、并且攻击方在采取该策略对中的攻击策略时，攻击方未被监测方发现的概率，得到该策略对对应的未发现概率；其中所述监测发现概率为监测方和攻击方在同一监测区域时，监测方发现攻击方的概率；

2.根据权利要求1所述的方法，其特征在于，所述基于每个策略对对应的未发现概率，以及第二监测策略，从所述攻击策略中筛选目标攻击策略，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述目标攻击策略包括两个监测时刻。

4.根据权利要求1所述的方法，其特征在于，所述基于所述多个监测区域和所述多个监测时刻，确定监测方的多个第一监测策略，包括：

针对所述有向图中的每个节点，确定该节点的路径节点；

5.根据权利要求4所述的方法，其特征在于，所述该节点的路径节点包括以下至少一个：

6.根据权利要求1所述的方法，其特征在于，所述基于所述第二监测策略、所述目标攻击策略和所述监测发现概率，从所述第二监测策略中筛选目标监测策略，包括：

7.根据权利要求6所述的方法，其特征在于，所述筛选策略对对应的未发现概率，利用如下公式确定：

式中，m表示无人机的数量，V_W表示策略对(d,a)对应的第一监测策略中无人机w的监测路径中与对应的目标攻击策略的攻击路径中相同的监测区域，δ(v)表示监测发现概率。

8.一种部署多无人机的纳什均衡博弈智能决策系统，其特征在于，包括：

第二策略确定模块，用于基于执行每个第一监测策略的概率，确定监测方的多种第二监测策略，包括：第二监测策略为执行第一监测策略的概率分布；

第一概率确定模块，用于针对每个策略对，基于监测发现概率、对应的第一监测策略中每个无人机的监测路径中与对应的攻击策略的攻击路径中相同的监测区域，确定监测方在采取该策略对中的第一监测策略、并且攻击方在采取该策略对中的攻击策略时，攻击方未被监测方发现的概率，得到该策略对对应的未发现概率；其中所述监测发现概率为监测方和攻击方在同一监测区域时，监测方发现攻击方的概率；

9.根据权利要求8所述的系统，其特征在于，所述攻击策略筛选模块具体用于：

10.根据权利要求8或9所述的系统，其特征在于，所述目标攻击策略包括两个监测时刻。