CN105700555A

CN105700555A - 一种基于势博弈的多无人机协同搜索方法

Info

Publication number: CN105700555A
Application number: CN201610143227.0A
Authority: CN
Inventors: 段海滨; 李沛
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2016-03-14
Filing date: 2016-03-14
Publication date: 2016-06-22
Anticipated expiration: 2036-03-14
Also published as: CN105700555B

Abstract

本发明是一种基于势博弈的多无人机协同搜索方法，其实施步骤为：步骤一：多无人机协同搜索问题建模；步骤二：多无人机协调运动的势博弈建模和双对数-线性学习法势博弈求解；步骤三：根据传感器探测信息更新概率图，对更新后的概率图进行信息融合，获取目标存在概率；步骤四：根据目标存在概率更新不确定度，并进行多无人机协同搜索。本发明能实现多无人机协同搜索，包含基于势博弈的协调运动、概率图更新、信息融合等过程，由于自身分布式的控制方式，方法计算简单，具有较强的鲁棒性，能有效应对外界干扰。

Description

一种基于势博弈的多无人机协同搜索方法

【技术领域】

本发明是一种基于势博弈的多无人机协同搜索方法，属于无人机自主控制技术领域。

【背景技术】

在无人机所承担的各种任务中，侦察和搜索(ReconnaissanceandSearch)是目前无人机系统的首要任务，执行这类任务的无人机通常称为无人侦察机，典型的包括美军的“全球鹰(GlobalHawk)”、“捕食者(Predator)”、“扫描鹰(ScanEagle)”等无人机，其主要功能为情报侦察、目标搜索、目标指示与定位、动态目标跟踪以及战场监视等等。与侦察卫星相比，无人机的成本低，活动区域不受卫星轨道的限制，控制更加灵活，在针对动态时间敏感目标时，可以在更短时间内获得更高分辨率的实时目标图像；与有人侦察机相比，无人机能够昼夜持续侦察，不必考虑飞行员的疲劳和伤亡，特别在对敌方严密设防的重要地域执行任务时，使用无人机更能体现出其优越性。因此，采用无人机对作战区域进行目标搜索和情报侦察已经成为当前战场信息获取的重要手段。

在无人机执行任务过程中，搜索并且发现任务区域内的目标是后续进行情报搜集、目标定位乃至打击等一系列作战活动的基础和前提。然而，在复杂的战场条件下，由于作战任务区域的环境复杂性、目标的不确定性、传感器设备的不确定性和任务的时间紧迫性等因素，使得目标搜索问题十分复杂，具体表现为：任务区域范围大、环境复杂；目标的类型和运动特性复杂；目标侦察搜索设备的性能有限；目标搜索需要满足任务时间要求等。

对于目标搜索任务来说，单架无人机所挂载的传感器性能有限，通常只能获取有限范围内的目标信息，无法满足对大量目标的搜索和侦察需求；另一方面，由于无人机通常是在高危环境下执行任务，使得其故障率和毁伤率大大增加，此时，多无人机协同执行任务将具备如下的优势：可以通过相互之间的配合提高任务完成的质量；可以通过资源和信息的共享扩展执行任务的能力；可以通过任务的并行执行缩短任务完成的时间、提高任务执行的效率；当出现平台损毁时，可以通过任务重分配增加任务成功的概率。由此可见，组织多架无人机协同执行任务是未来网络化战场上的一种重要作战方式，而如何有效控制多架无人机在复杂环境中协同执行搜索任务也逐渐成为近年来协同控制领域的重要内容。

多无人机协同搜索要求在满足特定任务要求和约束条件下，对多架无人机实施有效的控制，从而以最小的代价高质量的完成对目标的搜索，发现尽可能多的未知目标。显然，协同搜索能够带来更好的作战效能、实现更优的资源利用。目前，多无人机协同控制的结构主要可分为集中式结构和分布式结构。在集中式结构下，多架无人机通常在地面任务控制站(或空中任务控制单元)的统一指挥和控制下执行任务，作为中心的任务控制单元能够进行慎思的规划，具有良好的全局控制与决策能力,但是在未来多无人机网络化作战条件下,集中式控制方式将面临通信等诸多方面的问题。

随着技术的不断发展，无人机系统的性能不断提升，无人机的自主能力也不断增强，分布式方式逐渐成为多无人机协同控制的研究热点。在分布式控制方式下，每架无人机具有相对独立的控制器，多无人机之间通常采取协作的方式来解决全局控制问题，系统具有较好的鲁棒性和容错性，并且大量的计算和决策能够在无人机本地进行，从而实现信息的分散化、控制的分散化，使得控制的可靠性和灵活性大大改善。在上述分布式方式下，无人机平台之间的控制、决策以及信息都是高度分散的，多无人机之间的协同行为依赖于平台之间的信息交互。此时，多无人机协同控制将面临如下挑战：通信的复杂性、计算的实时性、环境的不确定性、信息的不一致性等问题。

【发明内容】

1、发明目的：

本发明提出了一种基于势博弈的多无人机协同搜索方法，其目的是提供一种协同控制方法，使得无人机在执行搜索任务时能够分布式地工作，独立地针对自身所处的环境做决策，从而达到整体效能的最优，同时能够应对通信的复杂性、计算的实时性、信息的不一致性等问题。

2、技术方案：

本发明针对多无人机协同搜索的任务需求，开发了一种鲁棒性强、实时性好的基于势博弈的多无人机协同搜索方法，该方法的步骤如下：

步骤一：多无人机协同搜索问题建模

考虑用n架无人机(记为V＝{v₁,v₂,…,v_n})对一个连续的任务区域(表示实数域)进行搜索，每架无人机作为独立的决策者采用分布式策略对任务区域进行探索，见附图1。为了表示方便，将连续的任务区域平均分配为M＝L_x×L_y个单元(L_x，L_y表示任务区域横向、纵向分配的份数，M表示划分的单元的个数)，每个单元用其中心位置g＝[x,y]^T(x，y表示横、纵坐标的位置，T为数学符号转置)等价代替。无人机v_i在时刻t对其覆盖范围内的基本单元进行一次独立的测量，测量结果为Z_i,g,t，其中μ_i,t表示无人机v_i在时刻t的位置，R_si表示无人机传感器的探测范围。若其中心位置位于之内，则某一单元g内的信息可被无人机v_i检测到。在时刻t，无人机v_i执行一次测量，观测结果表示如下，

Z_{i, g, t} = {\begin{matrix} 1, & \begin{matrix} i f & | g - μ_{i, t} | \leq R_{s i} \end{matrix} \\ 0, & o t h e r w i s e . \end{matrix} - - - (1)

此外，考虑机载传感器的内在特性，将其正确率和误警率分别定义为P(Z_i,g,t＝1|θ_g＝1)＝p_c和P(Z_i,g,t＝1|θ_g＝0)＝p_f，并假设这两个参数已知，且在整个任务执行过程中保持不变，其中θ_g表示目标存在于单元g中的概率。

对于多无人机网络的通信拓扑，将其建模为一个动态图G_t＝(ε_t,v_t)，该动态图中v_t为顶点集合，表示为v_t＝{1,2,…,N}，ε_t为连接边集合，表示为ε_t＝{{i,j}:i,j∈v；||μ_i,t-μ_j,t||≤R_Ci}，其中μ_i,t和μ_j,t表示两个不同无人机v_i和v_j在时刻t的位置，R_Ci为无人机的通信范围。无人机v_i在时刻t的邻居集合表示为N_i,t＝{j∈v|{i,j}∈ε_t}∪{i}，为表征方便，设该无人机本身属于其邻居集合。无人机v_i在时刻t的度记为d_i,t＝|N_i,t|，表示它将自身位置信息和传感器信息传递给邻居个体的能力。

步骤二：多无人机协调运动的势博弈建模和双对数-线性学习法势博弈求解

(1)多无人机协调运动的势博弈建模

将多无人机协调运动建模成势博弈的过程中，包括三方面的要素：博弈参与者、参与者行动集、效用函数。博弈参与者即为参与搜索过程的n架无人机，需要考虑的为行动集和效用函数的设计。

博弈参与者行动集A_i的设计：它定义了博弈参与者可选择的全部行为，其中的元素被称为行动，是参与者在博弈过程中的决策变量。无人机的搜索效率取决于其传感器性能以及其所在的位置，而特定无人机的传感器性能在执行任务过程中保持不变，所以它的搜索效率由其位置决定。因此，将某一博弈者的行动集定义为在任务区域内它所能选择的位置，A_i＝{g|g∈Ω},无人机v_i的行动表示为a_i∈A_i，整个无人机群体的集体行动表示为a＝(a₁,a₂,…,a_n)，称作行动组合。设a(t-1)为无人机v_i在时刻t-1的行动组合，则根据无人机运动特性以及障碍物等行动约束，将时刻t行动集简化为上一时刻行动集的函数，受限的行动集，记为见附图2。按惯例规定，对于博弈者任一行动a_i∈A_i，有a_i∈C_i(a_i)，即无人机被允许停留在上一时刻的位置。

在无人机被布置到任务器搜集信息时，密度函数(表示正的实数集)用来记录无人机对任务区域内目标时间发生概率的了解程度。由于信号衰减，传感器性能随着目标单元与无人机位置之间的几何距离增大而降低，因此用非减可微函数对传感器的信号强度进行量化分析，q∈Ω为任务区域中单元格的位置，p_i为无人机v_i的位置。无人机的性能用概率密度函数和信号衰减综合表示如下：

Φ (a) = Φ (p_{1}, p_{2}, ..., p_{n}) = {&Integral;}_{Ω} f (\min_{i &Element; {1, 2, ... n}} || q - p_{i} ||) η (q) d q - - - (2)

其中

f (|| q - p_{i} ||) = \{\begin{matrix} || q - p_{i} || & || q - p_{i} || \leq R_{S i} \\ 0 & o t h e r w i s e \end{matrix}

式中η(q)为密度函数，R_Si为无人机v_i的传感距离。

博弈参与者效用函数U_i(a_i,a_-i)的设计：在效用函数的设计过程中，需考虑所设计博弈的可扩展性、灵活性、信息的局部性、以及效用函数的可求解性等因素。无人机v_i的效用函数设计为问题整体效用的边际贡献值，记做

\begin{matrix} U_{i} (a_{i}, a_{- i}) = {&Integral;}_{Ω} f (\min_{i &Element; {1, 2, ..., n}} || q - p_{i} ||) η (q) d q \\ - {&Integral;}_{Ω} f (\min_{i &Element; {1, 2, ..., i - 1, i + 1, ..., n}} || q - p_{i} ||) η (q) d q . \end{matrix} - - - (3)

根据势函数的定义，按照式(3)设计效用函数，构成的博弈为势博弈，满足势博弈的相关性质，能利用各种学习算法保证其最优性和收敛性。

(2)双对数-线性学习法的势博弈求解

采用双对数-线性学习法对问题进行求解，减少无人机计算资源的负担，有利于多无人机的实时运动控制。在双对数-线性学习法中，首先按异步时间模型以相同的概率随机选择一架无人机v_i∈V改变其位置。与此同时，其他无人机保持之前的行动不变a_-i(t)＝a_-i(t-1)。选择出的无人机从其受限行动集C_i(a_i(t-1))中选出尝试动作以改变其位置

P ({\hat{a}}_{i} = a_{i}) = 1 / z_{i}, &ForAll; a_{i} &Element; C_{i} (a_{i} (t - 1)) \ a_{i} (t - 1) - - - (4)

P ({\hat{a}}_{i} = a_{i} (t - 1)) = 1 - (| C_{i} (a_{i} (t - 1)) | - 1) / z_{i} - - - (5)

其中z_i表示无人机v_i在受限行动集中行动的最大个数，表示为

z_{i} = \max_{a_{i} &Element; A_{i}} | C_{i} (a_{i} (t - 1)) | .

无人机v_i在选择出尝试动作后，在时刻t按照策略p_i(t)∈Δ(A_i)来更新其动作，博弈者策略p_i(t)定义如下：

p_{i}^{a_{i} (t - 1)} (k) = \frac{e^{\frac{1}{τ} U_{i} (a (t - 1))}}{e^{\frac{1}{τ} U_{i} (a (t - 1))} + e^{\frac{1}{τ} U_{i} ({\hat{a}}_{i}, a_{- i} (t - 1))}} - - - (6)

p_{i}^{{\hat{a}}_{i}} (t) = \frac{e^{\frac{1}{τ} U_{i} ({\hat{a}}_{i}, a_{- i} (t - 1))}}{e^{\frac{1}{τ} U_{i} (a (t - 1))} + e^{\frac{1}{τ} U_{i} ({\hat{a}}_{i}, a_{- i} (t - 1))}} - - - (7)

式中U_i(a(t-1))和分别是无人机当前行动的效用以及按照选定尝试动作改变后的假想效用。式中参数τ定义了噪声的强度，即无人机作决策时在多大程度上会选择次优动作。当τ→0时，无人机会以概率1选择a_-i(t-1)的最佳应对动作。注意，当时，时，

对于无人机v_i∈V和其行动集中的任一对动作可达性表示存在一系列的行动对所有的t∈{1,2,...,m}满足对于无人机v_i∈V和其行动集中的任一对动作表示其可逆性。对于构造成效用函数为式(2)的势博弈的多无人机协调运动问题，如果博弈者遵循双对数-线性学习法，并且其受限行动集满足可达性和可逆性，则无人机在t→∞，τ→0时将移动到最大化其覆盖性能的位置。

步骤三：根据传感器探测信息更新概率图，对更新后的概率图进行信息融合，获取目标存在概率

(1)根据传感器探测信息更新概率图

首先根据先验知识建立表征各无人机对任务区域的理解程度的概率图，然后通过贝叶斯规则和在运动过程中获得的信息对概率图进行更新，具体步骤如下。

在搜索过程中，每架无人机v_i保存一个它对任务区域所有基础单元的概率图P_i,g,t，表示在时刻t目标存在于单元g中的概率，θ_g＝1和θ_g＝0分别表示目标是否存在于单元g。无人机v_i根据传感器观测信息B_i,t更新其概率图，公式如下

P_i,g,t＝P(θ_g＝1|B_i,t).(8)

目标存在于单元g在无人机v_i在时刻t观测值为Z_i,g,t时的条件概率P(θ_g＝1|Z_i,g,t)按照贝叶斯公式表示为

P (θ_{g} = 1 | Z_{i, g, t}) = \frac{P (Z_{i, g, t} | θ_{g} = 1) P (θ_{g} = 1)}{P (Z_{i, g, t})} - - - (9)

其中P(θ_g＝1)为目标存在于单元g中的先验概率。将无人机v_i在前一时刻t-1对于目标存在于单元g的概率估计P_i,g,t-1作为先验概率，结合对于g在时刻t的观测Z_i,g,t，式(9)变为

P_{i, g, t} = \frac{P (Z_{i, g, t} | θ_{g} = 1) P_{i, g, t - 1}}{P (Z_{i, g, t})} - - - (10)

根据贝叶斯公式上式的分母表示为P(Z_i,g,t)＝P(Z_i,g,t|θ_g＝1)P(θ_g＝1)+P(Z_i,g,t|θ_g＝0)P(θ_g＝0)，其中P(Z_i,g,t|θ_g＝1)和P(Z_i,g,t|θ_g＝0)为正确检测率和误警率，为建模部分中的p_c和p_f。将式(10)代入式(9)中，概率图更新规则表示如下，

\begin{matrix} P_{i, g, t} = P (θ_{g} = 1 | Z_{i, g, t}) \\ = \frac{P (Z_{i, g, t} | θ_{g} = 1) P (θ_{g} = 1)}{P (Z_{i, g, t} | θ_{g} = 1) P (θ_{g} = 1) + P (Z_{i, g, t} | θ_{g} = 0) P (θ_{g} = 0)} \\ \{\begin{matrix} \frac{p_{c} P_{i, g, t - 1}}{p_{c} P_{i, g, t - 1} + p_{f} (1 - P_{i, g, t - 1})} & \begin{matrix} i f & Z_{i, g, t} = 1 \end{matrix} \\ \frac{(1 - p_{c}) P_{i, g, t - 1}}{(1 - p_{c}) P_{i, g, t - 1} + (1 - p_{f}) (1 - P_{i, g, t - 1})} & \begin{matrix} i f & Z_{i, g, t} = 0 \end{matrix} \\ P_{i, g, t - 1} & o t h e r w i s e . \end{matrix} \end{matrix} - - - (11)

在0＜p_c＜1和0＜p_f＜1时，为了简化运算，设

Q_{i, g, t} \overset{Δ}{=} l n (\frac{1}{P_{i, g, t}} - 1) - - - (12)

则概率更新规则变换为

Q_{i, g, t} = \{\begin{matrix} Q_{i, g, t - 1} + \ln \frac{p_{f}}{p_{c}} & \begin{matrix} i f & Z_{i, g, t} = 1 \end{matrix} \\ Q_{i, g, t - 1} + \ln \frac{1 - p_{f}}{1 - p_{c}} & \begin{matrix} i f & Z_{i, g, t} = 0 \end{matrix} \\ Q_{i, g, t - 1} & o t h e r w i s e . \end{matrix} - - - (13)

这样，对于P_i,g,t∈(0,1)，P_i,g,t和Q_i,g,t存在一对一映射，可以实现从Q_i,g,t恢复P_i,g,t。

(2)对更新后的概率图进行信息融合，获取目标存在概率

在步骤三中“根据传感器探测信息更新概率图”部分，无人机v_i利用传感器探测到的新息对上一时刻t-1的概率图H_i,g,t进行更新。每架无人机将更新后的概率图传输给它当前的邻居，邻居由通信距离和各自的位置决定。然后，利用线性组合的方式对自身更新的概率图和通信获取的邻居概率图进行融合，如下式

Q_{i, g, t} = ω_{i, i, t} H_{i, g, t - 1} + \underset{j &Element; N_{i} (t)}{Σ} ω_{i, j, t} H_{j, g, t - 1} - - - (14)

其中ω_i,j,t是无人机v_i概率图Q_j,g,t-1的权重。将不是无人机v_i邻居个体的权重设为ω_i,j,t＝0，上式可以写成如下的形式。

Q_{i, g, t} = Σ_{j = 1}^{N} ω_{i, j, t} H_{j, g, t} - - - (15)

这里W_t＝(ω_i,j)采用著名的Metropolis权重矩阵，表示为

ω_{i, i, t} = {\begin{matrix} \frac{1}{1 + \max {d_{i} (t), d_{j} (t)}} & \begin{matrix} i f & {i, j} &Element; ϵ (t) \end{matrix} \\ 1 - \underset{{i, k} &Element; ϵ (t)}{Σ} ω_{i, k, t} (t) & \begin{matrix} i f & i = j \end{matrix} \\ 0 & o t h e r w i s e \end{matrix} - - - (16)

其中d_i(t),d_j(t)表示节点i和j的度，在实际配置中，可将W_t∈R^n×n存储成稀疏矩阵的形式，减少所需存储空间。若无人机网络连通，则W_t为遍历性双随机矩阵，可使各概率图渐进稳定到平均一致性。该权重矩阵适用于分布式配置，无人机无需了解无人机网络的通信拓扑等全局信息，甚至不需要参与整个任务的无人机数目。

对于式(15)定义的分布式信息估计过程，如果执行任务的无人机网络通信拓扑满足以下两个条件之一，则能够保证渐进收敛到概率图初始状态的平均值：或者无人机的通信网络为连通图；或者无人机的通信网络为存在独立通信失败的连通图。

步骤四：根据目标存在概率更新不确定度，并进行多无人机协同搜索

通过与邻居通信进行信息融合，得到估计值||Q_i,j,k||，该值用来刻画无人机v_i对于任务区域Ω单元g的不确定度。||Q_i,j,k||越大，无人机v_i的不确定值越小，反之亦然。而搜索问题构造成了一个具有受限行动集的势博弈，并利用双对数线性学习方法进行协调运动。因此，利用||Q_i,j,k||构造势博弈效用函数中的密度函数η(q)，形式如下：

η_{i, g, k} \overset{Δ}{=} e^{- k_{η} || Q_{i, g, k} ||} - - - (17)

其中k_η为正的增益参数，η_i,g,k表示无人机v_i在时刻k对于单元g的不确定度值。

协同搜索问题被分解为三个连续的部分：协调运动、传感器观测和信息融合更新。开始更新前，每个无人机初始化一个概率图，该图存储着每个单元中目标存在的概率。随后无人机根据步骤二中建立的势博弈模型进行协调运动，以优化整体的搜索性能。当到达新的位置之后，无人机利用传感器对覆盖范围内的单元进行探测。随后，结合探测到的数据，无人机根据步骤三对各自的概率图进行更新，并通过与邻居个体进行通信进行信息融合。重复步骤二和步骤三，直至各单元的不确定度降低到设定的阈值之下，此时搜索任务完成，过程见附图3。

3、优点及效果：

本发明提出了一种基于势博弈的多无人机协同搜索方法，包含基于势博弈的协调运动、概率图更新、信息融合等过程，由于自身分布式的控制方式，方法计算简单，具有较强的鲁棒性，能有效应对外界干扰。此外，该方法还能克服信息的局部性，最终达到多个无人机信息的一致性。协调运动构造成的势博弈，采用双对数-线性学习方法，能保障整体搜索效能的最优。

【附图说明】

图1为多无人机协同搜索示意图。

图2为无人机受限行动集示意图。

图3为多无人机协同搜索流程图。

图4为10架无人机协同搜索过程势函数的进化曲线。

图5(a)为搜索过程中无人机初始状态和环境设置。

图5(b)为搜索过程中无人机最终状态和目标位置。

图中标号及符号说明如下：

1、无人机1的序号；2、无人机2的序号；3、无人机3的序号；

4、无人机4的序号；5、无人机5的序号；6、无人机6的序号；

7、无人机7的序号；R_S1、无人机1的传感半径；

R_S6、无人机6的传感半径。

【具体实施方式】

下面通过一个具体实例来验证本发明所提出的一种基于势博弈的多无人机协同搜索方法的性能。实验计算机配置为IntelCoreDuoCPUT6600处理器，2.2Ghz主频，4G内存，MATLAB2013版本。该方法其具体实现步骤如下：

步骤一：多无人机协同搜索问题建模和参数初始化设定

考虑用10架无人机(记为V＝{v₁,v₂,...,v_n})对一个未知的区域进行搜索，每架无人机作为独立的决策者采用分布式策略对任务区域进行探索，区域示意图见附图1(为表示方便，示意图中只显示7架)。将连续的任务区域平均分配为M＝100×80个基本单元，每个单元用其中心位置g＝[x,y]^T等价代替。无人机v_i在时刻t对其覆盖范围内的基本单元进行一次独立的测量，测量结果为Z_i,g,t，具体测量值如式(18)，其中取无人机传感器的探测范围R_si＝10，单位为单元格长度。若其中心位置位于之内，则某一单元g内的信息可被无人机v_i检测到。在时刻t，无人机v_i执行一次测量，观测结果表示如下，

Z_{i, g, t} = {\begin{matrix} 1, & \begin{matrix} i f & | g - μ_{i, t} | \leq R_{s i} \end{matrix} \\ 0, & o t h e r w i s e . \end{matrix} - - - (1)

此外，考虑机载传感器的内在特性，将其正确率和误警率分别定义为p_c＝0.9和p_f＝0.3，并且这两个参数在整个任务执行过程中保持不变。

对于多无人机网络的通信拓扑，将其建模为一个动态图G_t＝(ε_t,v_t)，该动态图由顶点集合v＝{1,2,...,N}和连接边集合ε_t＝{{i,j}:i,j∈v；||μ_i,t-μ_j,t||≤R_C}组成，动态图由无人机位置确定。其中μ_i,t和μ_j,t表示两个不同无人机v_i和v_j在时刻t的位置，任务开始时无人机位置分别为(5,15)，(10,15)，(15,15)，(20,15)，(25,15)，(5,20)，(10,20)，(15,20)，(20,20)，(25,20)，无人机的通信具体R_Ci＝50，单位为单元格长度。无人机v_i在时刻t的邻居集合表示为N_i,t＝{j∈v|{i,j}∈ε_t}∪{i}，为表征方便，设该无人机本身属于其邻居集合。无人机v_i在时刻t的度记为d_i,t＝|N_i,t|，表示为在无人机通信范围内的其他无人机的个数，它将自身位置信息和传感器信息传递给邻居个体的能力。

(1)多无人机协调运动的势博弈建模

博弈参与者v_i∈V行动集A_i的设计：它定义了博弈参与者可选择的全部行为，其中的元素被称为行动，是参与者在博弈过程中的决策变量。无人机的搜索效率取决于其传感器性能以及其所在的位置，而特定无人机的传感器性能在执行任务过程中保持不变，所以它的搜索效率由其位置决定。因此，将某一博弈者的行动集定义为在任务区域内它所能选择的位置，A_i＝{g|g∈Ω},无人机v_i的行动表示为a_i∈A_i，整个无人机群体的集体行动表示为a＝(a₁,a₂,...,a_n)，称作行动组合。设a(t-1)为无人机v_i在时刻t-1的行动组合，则根据无人机运动特性以及障碍物等行动约束，将时刻t行动集简化为上一时刻行动集的函数，受限的行动集，记为见附图2。按惯例规定，对于博弈者任一行动a_i∈A_i，有a_i∈C_i(a_i)，即无人机被允许停留在上一时刻的位置。

在无人机被布置到任务器搜集信息时，密度函数用来记录无人机对任务区域内目标时间发生概率的了解程度。由于信号衰减，传感器性能随着目标单元与无人机位置之间的几何距离增大而降低，因此用非减可微函数对传感器的信号强度进行量化分析。无人机的性能用概率密度函数和信号衰减综合表示如下：

Φ (a) = Φ (p_{1}, p_{2}, ..., p_{n}) = {&Integral;}_{Ω} f (\min_{i &Element; {1, 2, ... n}} || q - p_{i} ||) η (q) d q - - - (2)

其中

f (|| q - p_{i} ||) = \{\begin{matrix} || q - p_{i} || & || q - p_{i} || \leq R_{S i} \\ 0 & o t h e r w i s e \end{matrix}

式中η(q)为密度函数，任务空间的密度函数为η(g)≥0,∑_g∈Ωη(g)＝1。

博弈参与者v_i∈V效用函数U_i(a_i,a_-i)的设计：在效用函数的设计过程中，需考虑所设计博弈的可扩展性、灵活性、信息的局部性、以及效用函数的可求解性等因素。无人机v_i的效用函数设计为问题整体效用的边际贡献值，记做

\begin{matrix} U_{i} (a_{i}, a_{- i}) = {&Integral;}_{Ω} f (\min_{i &Element; {1, 2, ..., n}} || q - p_{i} ||) η (q) d q \\ - {&Integral;}_{Ω} f (\min_{i &Element; {1, 2, ..., i - 1, i + 1, ..., n}} || q - p_{i} ||) η (q) d q . \end{matrix} - - - (3)

式中η(q)和f(||q-p_i||)与式(2)定义一致。根据势函数的定义，按照式(3)设计效用函数，构成的博弈为势博弈，满足势博弈的相关性质，能利用各种学习算法保证其最优性和收敛性。

(2)双对数-线性学习法的势博弈求解

采用双对数-线性学习法对问题进行求解，减少无人机计算资源的负担，有利于多无人机的实时运动控制。在双对数-线性学习法中，首先按异步时间模型以相同的概率随机选择一架无人机v_i∈V改变其位置。与此同时，其他无人机保持之前的行动不变a_-i(t)＝a_-i(t-1)。选择出的无人机从其受限行动集C_i(a_i(t_-1))中选出尝试动作以改变其位置

P ({\hat{a}}_{i} = a_{i}) = 1 / z_{i}, &ForAll; a_{i} &Element; C_{i} (a_{i} (t - 1)) \ a_{i} (t - 1) - - - (4)

P ({\hat{a}}_{i} = a_{i} (t - 1)) = 1 - (| C_{i} (a_{i} (t - 1)) | - 1) / z_{i} - - - (5)

其中z_i表示无人机v_i在受限行动集中行动的最大个数，表示为在实际配置中z_i＝8。

p_{i}^{a_{i} (t - 1)} (k) = \frac{e^{\frac{1}{τ} U_{i} (a (t - 1))}}{e^{\frac{1}{τ} U_{i} (a (t - 1))} + e^{\frac{1}{τ} U_{i} ({\hat{a}}_{i}, a_{- i} (t - 1))}} - - - (6)

p_{i}^{{\hat{a}}_{i}} (t) = \frac{e^{\frac{1}{τ} U_{i} ({\hat{a}}_{i}, a_{- i} (t - 1))}}{e^{\frac{1}{τ} U_{i} (a (t - 1))} + e^{\frac{1}{τ} U_{i} ({\hat{a}}_{i}, a_{- i} (t - 1))}} - - - (7)

式中U_i(a(t-1))和分别是无人机当前行动的效用以及按照选定尝试动作改变后的假想效用。式中参数τ定义了噪声的强度，为τ＝0.2，即无人机作决策时在多大程度上会选择次优动作。当τ→0时，无人机会以概率1选择a_-i(t-1)的最佳应对动作。注意，当时，时，

对于无人机v_i∈V和其行动集中的任一对动作可达性表示存在一系列的行动对所有的t∈{1,2,...,m}满足对于无人机v_i∈V和其行动集中的任一对动作表示其可逆性。对于构造成效用函数为式(3)的势博弈的多无人机协调运动问题，如果博弈者遵循双对数-线性学习法，并且其受限行动集满足可达性和可逆性，则无人机在t→∞，τ→0时将移动到最大化其覆盖性能的位置。

(1)根据传感器探测信息更新概率图

在搜索过程中，每架无人机v_i保存一个它对任务区域所有基础单元的概率图表示在时刻t目标存在于单元g中的概率，θ_g＝1和θ_g＝0分别表示目标存在单元g与否，概率图初始值设置为P_i,g,0＝0.5。无人机v_i根据传感器观测信息B_i,t更新其概率图，公式如下

P_i,g,t＝P(θ_g＝1|B_i,t).(8)

P (θ_{g} = 1 | Z_{i, g, t}) = \frac{P (Z_{i, g, t} | θ_{g} = 1) P (θ_{g} = 1)}{P (Z_{i, g, t})} - - - (9)

其中P(θ_g＝1)为目标存在于单元g中的先验概率。将无人机v_i在前一时刻t-1对于目标存在于单元g的概率估计P_i,g,t-1作为先验概率，结合对于g在时刻t的观测Z_i,g,t，有

P_{i, g, t} = \frac{P (Z_{i, g, t} | θ_{g} = 1) P_{i, g, t - 1}}{P (Z_{i, g, t})} . - - - (10)

根据贝叶斯公式上式的分母表示为P(Z_i,g,t)＝P(Z_i,g,t|θ_g＝1)P(θ_g＝1)+P(Z_i,g,t|θ_g＝0)P(θ_g＝0)，其中P(Z_i,g,t|θ_g＝1)和P(Z_i,g,t|θ_g＝0)为正确检测率和误警率，为建模部分中的p_c和p_f。将(10)代入(9)，概率图更新规则表示如下，

\begin{matrix} P_{i, g, t} = P (θ_{g} = 1 | Z_{i, g, t}) \\ = \frac{P (Z_{i, g, t} | θ_{g} = 1) P (θ_{g} = 1)}{P (Z_{i, g, t} | θ_{g} = 1) P (θ_{g} = 1) + P (Z_{i, g, t} | θ_{g} = 0) P (θ_{g} = 0)} \\ \{\begin{matrix} \frac{p_{c} P_{i, g, t - 1}}{p_{c} P_{i, g, t - 1} + p_{f} (1 - P_{i, g, t - 1})} & \begin{matrix} i f & Z_{i, g, t} = 1 \end{matrix} \\ \frac{(1 - p_{c}) P_{i, g, t - 1}}{(1 - p_{c}) P_{i, g, t - 1} + (1 - p_{f}) (1 - P_{i, g, t - 1})} & \begin{matrix} i f & Z_{i, g, t} = 0 \end{matrix} \\ P_{i, g, t - 1} & o t h e r w i s e . \end{matrix} \end{matrix} - - - (11)

在0＜p_c＜1和0＜p_f＜1时，为了简化运算，设

Q_{i, g, t} \overset{Δ}{=} l n (\frac{1}{P_{i, g, t}} - 1) - - - (12)

则概率更新规则变换为

Q_{i, g, t} = \{\begin{matrix} Q_{i, g, t - 1} + \ln \frac{p_{f}}{p_{c}} & \begin{matrix} i f & Z_{i, g, t} = 1 \end{matrix} \\ Q_{i, g, t - 1} + \ln \frac{1 - p_{f}}{1 - p_{c}} & \begin{matrix} i f & Z_{i, g, t} = 0 \end{matrix} \\ Q_{i, g, t - 1} & o t h e r w i s e . \end{matrix} - - - (13)

这样，对于根据Z_i,g,t更新的P_i,g,t∈(0,1)，P_i,g,t和Q_i,g,t存在一对一映射，可以实现从Q_i,g,t恢复P_i,g,t。

(2)对更新后的概率图进行信息融合，获取目标存在概率

在上述过程中，无人机vi利用传感器探测到的新息对上一时刻t-1的概率图H_i,g,t进行更新。每架无人机将更新后的概率图传输给它当前的邻居，邻居由通信距离和各自的位置决定。然后，利用线性组合的方式对自身更新的概率图和通信获取的邻居概率图进行融合，如下式

Q_{i, g, t} = ω_{i, i, t} H_{i, g, t - 1} + \underset{j &Element; N_{i} (t)}{Σ} ω_{i, j, t} H_{j, g, t - 1} - - - (14)

Q_{i, g, t} = Σ_{j = 1}^{N} ω_{i, j, t} H_{j, g, t} - - - (15)

这里W_t＝(ω_i,j)采用著名的Metropolis权重矩阵，表示为

ω_{i, i, t} = {\begin{matrix} \frac{1}{1 + \max {d_{i} (t), d_{j} (t)}} & \begin{matrix} i f & {i, j} &Element; ϵ (t) \end{matrix} \\ 1 - \underset{{i, k} &Element; ϵ (t)}{Σ} ω_{i, k, t} (t) & \begin{matrix} i f & i = j \end{matrix} \\ 0 & o t h e r w i s e \end{matrix} - - - (16)

其中d_i(t)，d_j(t)表示节点i和j的度，在实际配置中，可将W_t∈R^n×n存储成稀疏矩阵的形式，减少所需存储空间。若无人机网络连通，则W_t为遍历性双随机矩阵，可使各概率图渐进稳定到平均一致性。该权重矩阵适用于分布式配置，无人机无需了解无人机网络的通信拓扑等全局信息，甚至不需要参与整个任务的无人机数目。

对于式(15)定义的分布式信息估计过程，如果执行任务的无人机网络通信拓扑满足以下两个条件之一，则能够保证渐进收敛到概率图初始状态的平均值：无人机的通信网络为连通图；无人机的通信网络为存在独立通信失败的连通图。

通过与邻居通信进行信息融合，得到估计值||Q_i,j,k||，该值用来刻画无人机v_i对于任务区域Ω单元g的不确定度。||Q_i,j,k||越大，无人机v_i的不确定值越小，反之亦然。而搜索问题构造成了一个具有受限行动集的势博弈，并利用双对数-线性学习方法进行协调运动。因此，利用||Q_i,j,k||构造势博弈效用函数中的密度函数η(q)，形式如下：

η_{i, g, k} \overset{Δ}{=} e^{- k_{η} || Q_{i, g, k} ||} . - - - (17)

其中k_η为正的增益参数，设置k_η＝1，η_i,g,k表示无人机v_i在时刻k对于单元g的不确定度值。

通常，协同搜索问题被分解为三个连续的部分：协调运动、传感器观测、信息融合更新。开始更新前，每个无人机初始化一个概率图，该图存储着每个单元中目标存在的概率。随后无人机根据步骤二中建立的势博弈模型进行协调运动，以优化整体的搜索性能。当到达新的位置之后，无人机利用传感器对覆盖范围内的单元进行探测。随后，结合探测到的数据，无人机根据步骤三对各自的概率图进行更新，并通过与邻居个体进行通信进行信息融合。重复步骤二和步骤三，直至各单元的不确定度降低到设定的阈值之下，此时搜索任务完成，过程见附图3。

图4、图5(a)及图5(b)即为实验运行结果，图4为步骤一中定义的任务1的结果，图5(a)、图5(b)为任务2的结果。本发明所提出的多无人机协同搜索算法在已知任务区域信息和未知任务区域信息的情况下都能够成功实现对任务区域的搜索，实现对目标的搜索和覆盖，并具有较强的鲁棒性。

该发明为多个体分布式协调控制问题提供了一条非常有效的方法途径，可广泛应用于机器人、航空、航天等涉及分布式协同控制问题的领域。

Claims

1.一种基于势博弈的多无人机协同搜索方法，其特征在于，该方法的步骤如下：

步骤一：多无人机协同搜索问题建模

用n架无人机对一个连续的任务区域进行搜索，记为V＝{v₁,v₂,...,v_n}；表示实数域；每架无人机作为独立的决策者采用分布式策略对任务区域进行探索，将连续的任务区域平均分配为M＝L_x×L_y个单，其中，L_x，L_y表示任务区域横向、纵向分配的份数，M表示划分的单元的个数；每个单元用其中心位置g＝[x,y]^T等价代替；其中，x，y表示横、纵坐标的位置，T为数学符号转置；无人机v_i在时刻t对其覆盖范围内的基本单元进行一次独立的测量，测量结果为Z_i,g,t，其中μ_i,t表示无人机v_i在时刻t的位置，R_si表示无人机传感器的探测范围；若其中心位置位于之内，则某一单元g内的信息被无人机v_i检测到；在时刻t，无人机v_i执行一次测量，观测结果表示如下，

Z_{i, g, t} = \{\begin{matrix} 1, & i f | g - μ_{i, t} | \leq R_{s i} \\ 0, & o t h e r w i s e . \end{matrix} - - - (1)

此外，将正确率和误警率分别定义为P(Z_i,g,t＝1|θ_g＝1)＝p_c和P(Z_i,g,t＝1|θ_g＝0)＝p_f，并假设这两个参数已知，且在整个任务执行过程中保持不变，其中θ_g表示目标存在于单元g中的概率；

对于多无人机网络的通信拓扑，将其建模为一个动态图G_t＝(ε_t,v_t)，该动态图中v_t为顶点集合，表示为v_t＝{1,2,...,N}，ε_t为连接边集合，表示为ε_t＝{{i,j}:i,j∈v；||μ_i,t-μ_j,t||≤R_Ci}，其中μ_i,t和μ_j,t表示两个不同无人机v_i和v_j在时刻t的位置，R_Ci为无人机的通信范围；无人机v_i在时刻t的邻居集合表示为N_i,t＝{j∈v|{i,j}∈ε_t}∪{i}，为表征方便，设该无人机本身属于其邻居集合；无人机v_i在时刻t的度记为d_i,t＝|N_i,t|，表示它将自身位置信息和传感器信息传递给邻居个体的能力；

2.1多无人机协调运动的势博弈建模

将多无人机协调运动建模成势博弈的过程中，包括三方面的要素：博弈参与者、参与者行动集及效用函数；博弈参与者即为参与搜索过程的n架无人机，需要考虑的为行动集和效用函数的设计；

博弈参与者行动集A_i的设计：它定义了博弈参与者可选择的全部行为，其中的元素被称为行动，是参与者在博弈过程中的决策变量；无人机的搜索效率取决于其传感器性能以及其所在的位置，将某一博弈者的行动集定义为在任务区域内它所能选择的位置，A_i＝{g|g∈Ω},无人机v_i的行动表示为a_i∈A_i，整个无人机群体的集体行动表示为a＝(a₁,a₂,...,a_n)，称作行动组合；设a(t-1)为无人机v_i在时刻t-1的行动组合，则根据无人机运动特性以及障碍物等行动约束，将时刻t行动集简化为上一时刻行动集的函数，受限的行动集，记为对于博弈者任一行动a_i∈A_i，有a_i∈C_i(a_i)，即无人机被允许停留在上一时刻的位置；

在无人机被布置到任务器搜集信息时，密度函数η:用来记录无人机对任务区域内目标时间发生概率的了解程度；表示正的实数集；由于信号衰减，传感器性能随着目标单元与无人机位置之间的几何距离增大而降低，因此用非减可微函数f(||q-p_i||):对传感器的信号强度进行量化分析，q∈Ω为任务区域中单元格的位置，p_i为无人机v_i的位置；无人机的性能用概率密度函数和信号衰减综合表示如下：

Φ (a) = Φ (p_{1}, p_{2}, ..., p_{n}) = {&Integral;}_{Ω} f (\underset{i &Element; {1, 2, ... n}}{m i n} | | q - p_{i} | |) η (q) d q - - - (2)

其中

f (| | q - p_{i} | |) = \{\begin{matrix} | | q - p_{i} | | & | | q - p_{i} | | \leq R_{S i} \\ 0 & o t h e r w i s e \end{matrix}

式中η(q)为密度函数，R_Si为无人机v_i的传感距离；

博弈参与者效用函数U_i(a_i,a_-i)的设计：无人机v_i的效用函数设计为整体效用的边际贡献值，记做

\begin{matrix} U_{i} (a_{i}, a_{- i}) = {&Integral;}_{Ω} f (\min_{i &Element; {1, 2, ..., n}} | | q - p_{i} | |) η (q) d q \\ - {&Integral;}_{Ω} f (\min_{i &Element; {1, 2, ..., i - 1, i + 1, ..., n}} | | q - p_{i} | |) η (q) d q . \end{matrix} - - - (3)

根据势函数的定义，按照式(3)设计效用函数，构成的博弈为势博弈，满足势博弈的相关性质，能利用各种学习算法保证其最优性和收敛性；

2.2双对数-线性学习法的势博弈求解

采用双对数-线性学习法对问题进行求解，减少无人机计算资源的负担，有利于多无人机的实时运动控制；在双对数-线性学习法中，首先按异步时间模型以相同的概率随机选择一架无人机v_i∈V改变其位置；与此同时，其他无人机保持之前的行动不变a_-i(t)＝a_-i(t-1)；选择出的无人机从其受限行动集C_i(a_i(t-1))中选出尝试动作以改变其位置

P ({\hat{a}}_{i} = a_{i}) = 1 / z_{i}, &ForAll; a_{i} &Element; C_{i} (a_{i} (t - 1)) \ a_{i} (t - 1) - - - (4)

P ({\hat{a}}_{i} = a_{i} (t - 1)) = 1 - (| C_{i} (a_{i} (t - 1)) | - 1) / z_{i} - - - (5)

p_{i}^{a_{i} (t - 1)} (k) = \frac{e^{\frac{1}{τ} U_{i} (a (t - 1))}}{e^{\frac{1}{τ} U_{i} (a (t - 1))} + e^{\frac{1}{τ} U_{i} ({\hat{a}}_{i}, a_{- i} (t - 1))}} - - - (6)

p_{i}^{{\hat{a}}_{i}} (t) = \frac{e^{\frac{1}{τ} U_{i} ({\hat{a}}_{i}, a_{- i} (t - 1))}}{e^{\frac{1}{τ} U_{i} (a (t - 1))} + e^{\frac{1}{τ} U_{i} ({\hat{a}}_{i}, a_{- i} (t - 1))}} - - - (7)

式中U_i(a(t-1))和分别是无人机当前行动的效用以及按照选定尝试动作改变后的假想效用；式中参数τ定义了噪声的强度，即无人机作决策时在多大程度上会选择次优动作；当τ→0时，无人机会以概率1选择a_-i(t-1)的最佳应对动作；注意，当时，时，

对于无人机v_i∈V和其行动集中的任一对动作可达性表示存在一系列的行动对所有的t∈{1,2,...,m}满足对于无人机v_i∈V和其行动集中的任一对动作表示其可逆性；对于构造成效用函数为式(2)的势博弈的多无人机协调运动问题，如果博弈者遵循双对数-线性学习法，并且其受限行动集满足可达性和可逆性，则无人机在t→∞，τ→0时将移动到最大化其覆盖性能的位置；

3.1根据传感器探测信息更新概率图

首先根据先验知识建立表征各无人机对任务区域的理解程度的概率图，然后通过贝叶斯规则和在运动过程中获得的信息对概率图进行更新，具体步骤如下；

在搜索过程中，每架无人机v_i保存一个它对任务区域所有基础单元的概率图P_i,g,t，表示在时刻t目标存在于单元g中的概率，θ_g＝1和θ_g＝0分别表示目标是否存在于单元g；无人机v_i根据传感器观测信息B_i,t更新其概率图，公式如下

P_i,g,t＝P(θ_g＝1|B_i,t).(8)

P (θ_{g} = 1 | Z_{i, g, t}) = \frac{P (Z_{i, g, t} | θ_{g} = 1) P (θ_{g} = 1)}{P (Z_{i, g, t})} - - - (9)

其中P(θ_g＝1)为目标存在于单元g中的先验概率；将无人机v_i在前一时刻t-1对于目标存在于单元g的概率估计P_i,g,t-1作为先验概率，结合对于g在时刻t的观测Z_i,g,t，式(9)变为

P_{i, g, t} = \frac{P (Z_{i, g, t} | θ_{g} = 1) P_{i, g, t - 1}}{P (Z_{i, g, t})} - - - (10)

根据贝叶斯公式上式的分母表示为P(Z_i,g,t)＝P(Z_i,g,t|θ_g＝1)P(θ_g＝1)+P(Z_i,g,t|θ_g＝0)P(θ_g＝0)，其中P(Z_i,g,t|θ_g＝1)和P(Z_i,g,t|θ_g＝0)为正确检测率和误警率，为建模部分中的p_c和p_f；将式(10)代入式(9)中，概率图更新规则表示如下，

\begin{matrix} P_{i, g, t} = P (θ_{g} = 1 | Z_{i, g, t}) \\ = \frac{P (Z_{i, g, t} | θ_{g} = 1) P (θ_{g} = 1)}{P (Z_{i, g, t} | θ_{g} = 1) P (θ_{g} = 1) + P (Z_{i, g, t} | θ_{g} = 0) P (θ_{g} = 0)} \\ = \{\begin{matrix} \frac{p_{c} P_{i, g, t - 1}}{p_{c} P_{i, g, t - 1} + p_{f} (1 - P_{i, g, t - 1})} & i f Z_{i, g, t} = 1 \\ \frac{(1 - p_{c}) P_{i, g, t - 1}}{(1 - p_{c}) P_{i, g, t - 1} + (1 - p_{f}) (1 - P_{i, g, t - 1})} & i f Z_{i, g, t} = 0 \\ P_{i, g, t - 1} & o t h e r w i s e . \end{matrix} \end{matrix} - - - (11)

在0＜p_c＜1和0＜p_f＜1时，为了简化运算，设

Q_{i, g, t} \overset{Δ}{=} l n (\frac{1}{P_{i, g, t}} - 1) - - - (12)

则概率更新规则变换为

Q_{i, g, t} = \{\begin{matrix} Q_{i, g, t - 1} + l n \frac{p_{f}}{p_{c}} & i f Z_{i, g, t} = 1 \\ Q_{i, g, t - 1} + l n \frac{1 - p_{f}}{1 - p_{c}} & i f Z_{i, g, t} = 0 \\ Q_{i, g, t - 1} & o t h e r w i s e . \end{matrix} - - - (13)

这样，对于P_i,g,t∈(0,1)，P_i,g,t和Q_i,g,t存在一对一映射，实现从Q_i,g,t恢复P_i,g,t；

3.2对更新后的概率图进行信息融合，获取目标存在概率

在步骤三中“根据传感器探测信息更新概率图”部分，无人机v_i利用传感器探测到的新息对上一时刻t-1的概率图H_i,g,t进行更新；每架无人机将更新后的概率图传输给它当前的邻居，邻居由通信距离和各自的位置决定；然后，利用线性组合的方式对自身更新的概率图和通信获取的邻居概率图进行融合，如下式

Q_{i, g, t} = ω_{i, i, t} H_{i, g, t - 1} + \underset{j &Element; N_{i} (t)}{Σ} ω_{i, j, t} H_{j, g, t - 1} - - - (14)

其中ω_i,j,t是无人机v_i概率图Q_j,g,t-1的权重；将不是无人机v_i邻居个体的权重设为ω_i,j,t＝0，上式写成如下的形式；

Q_{i, g, t} = Σ_{j = 1}^{N} ω_{i, j, t} H_{j, g, t} - - - (15)

这里W_t＝(ω_i,j)采用著名的Metropolis权重矩阵，表示为

ω_{i, i, t} = \{\begin{matrix} \frac{1}{1 + \max {d_{i} (t), d_{j} (t)}} & i f {i, j} &Element; ϵ (t) \\ 1 - \underset{{i, k} &Element; ϵ (t)}{Σ} ω_{i, k, t} (t) & i f i = j \\ 0 & o t h e r w i s e \end{matrix} - - - (16)

其中d_i(t),d_j(t)表示节点i和j的度，在实际配置中，将W_t∈R^n×n存储成稀疏矩阵的形式，减少所需存储空间；若无人机网络连通，则W_t为遍历性双随机矩阵，使各概率图渐进稳定到平均一致性；该权重矩阵适用于分布式配置，无人机无需了解无人机网络的通信拓扑等全局信息，甚至不需要参与整个任务的无人机数目；

对于式(15)定义的分布式信息估计过程，如果执行任务的无人机网络通信拓扑满足以下两个条件之一，则能够保证渐进收敛到概率图初始状态的平均值：或者无人机的通信网络为连通图；或者无人机的通信网络为存在独立通信失败的连通图；

通过与邻居通信进行信息融合，得到估计值||Q_i,j,k||，该值用来刻画无人机v_i对于任务区域Ω单元g的不确定度；||Q_i,j,k||越大，无人机v_i的不确定值越小，反之亦然；而搜索问题构造成了一个具有受限行动集的势博弈，并利用双对数线性学习方法进行协调运动；因此，利用||Q_i,j,k||构造势博弈效用函数中的密度函数η(q)，形式如下：

η_{i, g, k} \overset{Δ}{=} e^{- k_{η} | | Q_{i, g, k} | |} - - - (17)

其中k_η为正的增益参数，η_i,g,k表示无人机v_i在时刻k对于单元g的不确定度值；

协同搜索问题被分解为三个连续的部分：协调运动、传感器观测和信息融合更新；开始更新前，每个无人机初始化一个概率图，该图存储着每个单元中目标存在的概率；随后无人机根据步骤二中建立的势博弈模型进行协调运动，以优化整体的搜索性能；当到达新的位置之后，无人机利用传感器对覆盖范围内的单元进行探测；随后，结合探测到的数据，无人机根据步骤三对各自的概率图进行更新，并通过与邻居个体进行通信进行信息融合；重复步骤二和步骤三，直至各单元的不确定度降低到设定的阈值之下，此时搜索任务完成。