CN113110605A

CN113110605A - 城市环境下多无人机协同搜索方法及装置

Info

Publication number: CN113110605A
Application number: CN202110594576.5A
Authority: CN
Inventors: 朱晓敏; 门通; 包卫东; 刘大千; 王吉; 费博雯; 肖振亮; 邹明胤; 张亮
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-07-13
Anticipated expiration: 2041-05-28
Also published as: CN113110605B

Abstract

本说明书一个或多个实施例提供一种城市环境下多无人机协同搜索方法及装置，包括：获取无人机的当前状态和上一决策周期的状态；根据所述当前状态和上一决策周期的状态，计算吸引信息素和排斥信息素；根据所述吸引信息素和排斥信息素，确定无人机的局部最优路径；接收其他无人机发送的局部最优路径，根据各无人机的局部最优路径，计算调度信息素；根据所述吸引信息素、排斥信息素和调度信息素，确定无人机群的全局最优路径；按照所述全局最优路径进行搜索。本实施例能够提高多无人机协同搜索目标的效率。

Description

城市环境下多无人机协同搜索方法及装置

技术领域

本说明书一个或多个实施例涉及无人机技术领域，尤其涉及一种城市环境下多无人机协同搜索方法及装置。

背景技术

随着无人机在军事和民用领域的广泛应用，利用无人机能够完成多种复杂任务。在城市环境中，存在搜索动态目标(例如，肇事逃逸车辆)的任务，受城市建筑物的影响，使用卫星定位技术难以准确定位动态目标，可利用多无人机协同完成搜索动态目标的任务，而如何提高多无人机协同搜索的效率是所需解决的关键问题。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种城市环境下多无人机协同搜索方法及装置，能够提高多无人机协同搜索目标的效率。

基于上述目的，本说明书一个或多个实施例提供了城市环境下多无人机协同搜索方法，包括：

获取无人机的当前状态和上一决策周期的状态；

根据所述当前状态和上一决策周期的状态，计算吸引信息素和排斥信息素；

根据所述吸引信息素和排斥信息素，确定无人机的局部最优路径；

接收其他无人机发送的局部最优路径，根据各无人机的局部最优路径，计算调度信息素；

根据所述吸引信息素、排斥信息素和调度信息素，确定无人机群的全局最优路径；

按照所述全局最优路径进行搜索。

可选的，按照所述全局最优路径进行搜索之前，还包括：

根据所述全局最优路径，计算机群协同性能指标；

当所述机群协同性能指标满足预设条件时，按照所述全局最优路径进行搜索。

可选的，所述确定无人机的局部最优路径之前，还包括：

根据所述当前状态，确定无人机的所有可能路径。

可选的，根据所述吸引信息素和排斥信息素，确定无人机的局部最优路径，包括：

根据所述吸引信息素和排斥信息素，分别计算无人机在每条可能路径上可达到的局部性能指标；

根据每条可能路径对应的局部性能指标，确定局部性能指标最大值所对应的局部最优路径。

可选的，根据所述吸引信息素、排斥信息素和调度信息素，确定无人机群的全局最优路径，包括：

根据所述吸引信息素、排斥信息素和调度信息素，计算无人机在每条可能路径上的全局性能指标；

根据每条可能路径对应的全局性能指标，确定全局性能指标最大值所对应的全局最优路径。

可选的，方法还包括：在每个决策周期，根据当前已搜索栅格的目标检测结果，更新用于表征动态目标出现概率的目标概率分布图。

本说明书实施例还提供一种城市环境下多无人机协同搜索装置，包括：

获取模块，用于获取无人机的当前状态和上一决策周期的状态；

第一计算模块，用于根据所述当前状态和上一决策周期的状态，计算吸引信息素和排斥信息素；

局部路径确定模块，用于根据所述吸引信息素和排斥信息素，确定无人机的局部最优路径；

第二计算模块，用于根据接收的其他无人机发送的局部最优路径，计算调度信息素；

全局路径确定模块，用于根据所述吸引信息素、排斥信息素和调度信息素，确定无人机群的全局最优路径；

搜索模块，用于按照所述全局最优路径进行搜索。

可选的，装置还包括：

性能计算模块，用于根据所述全局最优路径，计算机群协同性能指标；

判断模块，用于判断当所述机群协同性能指标满足预设条件时，利用搜索模块按照所述全局最优路径进行搜索。

可选的，装置还包括：

可能路径确定模块，用于根据所述当前状态，确定无人机的所有可能路径。

可选的，装置还包括：

图更新模块，用于在每个决策周期，根据当前已搜索栅格的目标检测结果，更新用于表征动态目标出现概率的目标概率分布图。

从上面所述可以看出，本说明书一个或多个实施例提供的城市环境下多无人机协同搜索方法及装置，通过获取无人机的当前状态和上一决策周期的状态，根据当前状态和上一决策周期的状态，计算吸引信息素和排斥信息素，根据吸引信息素和排斥信息素，确定无人机的局部最优路径，根据接收的其他无人机发送的局部最优路径，计算调度信息素，根据吸引信息素、排斥信息素和调度信息素，确定无人机群的全局最优路径，按照全局最优路径进行搜索。本实施例的方法，能够提高多无人机协同搜索目标的效率。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例的方法流程示意图；

图2为本说明书一个或多个实施例的城市环境模型示意图；

图3A、3B、3C分别为在第100、200、300个决策周期时的无人机飞行路线图；

图4为利用本实施例的方法、目标概率图方法与数字信息素方法下的探测目标数随时间变化示意图；

图5为利用本实施例的方法、目标概率图方法与数字信息素方法下的感知栅格数随时间变化示意图；

图6为利用本实施例的方法、通信受限下多无人机协同运动目标搜索方法下的探测目标数随时间变化示意图；

图7为利用本实施例的方法、通信受限下多无人机协同运动目标搜索方法下的感知栅格数随时间变化示意图；

图8为本说明书一个或多个实施例的装置结构示意图；

图9为本说明书一个或多个实施例的电子设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1所示，本说明书实施例提供一种城市环境下多无人机协同搜索方法，包括：

S101：获取无人机的当前状态和上一决策周期的状态；

本实施例中，基于滚动时域决策实现城市环境下多无人机协同搜索方法，首先获取无人机在当前决策周期的当前状态以及在上一决策周期的状态。

S102：根据当前状态和上一决策周期的状态，计算吸引信息素和排斥信息素；

本实施例中，利用数字信息素对无人机的航路规划和协同搜索进行引导，提高协同搜索效率。其中，数字信息素包括吸引信息素、排斥信息素和调度信息素，吸引信息素用以表征可能存在动态目标但尚未搜索过的栅格，排斥信息素用以表征已经搜索过的栅格，调度信息素是根据其他无人机的决策序列生成，可引导无人机群围捕目标或避免向其他无人机可能已经搜索的栅格移动。

S103：根据吸引信息素和排斥信息素，确定无人机的局部最优路径；

本实施例中，计算得到吸引信息素和排斥信息素之后，无人机遍历每条可能路径，计算在每条可能路径上能够达到的局部性能指标，从中选取出局部性能最大的可能路径作为无人机的局部最优路径，其中，无人机的局部最优路径也是该无人机的N步最优决策序列。

S104：接收其他无人机发送的局部最优路径，根据各无人机的局部最优路径，计算调度信息素；

本实施例中，无人机群中的各无人机确定出各自的局部最优路径之后，将局部最优路径发送至无人机群中的其他无人机，各无人机接收其他无人机的局部最优路径，计算调度信息素。

S105：根据吸引信息素、排斥信息素和调度信息素，确定无人机群的全局最优路径；

本实施例中，各无人机根据计算得到的吸引信息素、排斥信息素和调度信息素，计算得到无人机群的全局最优路径，其中，无人机群的全局最优路径也是无人机群的N步最优决策序列。

S106：按照全局最优路径进行搜索。

本实施例中，确定出无人机群的全局最优路径之后，控制无人机群中的各无人机按照全局最优路径进行搜索，通过各无人机的协同搜索，能够快速准确的找到动态目标，提高多无人机协同搜索效率。

一些实施例中，按照全局最优路径进行搜索之前，还包括：

根据全局最优路径，计算机群协同性能指标；

当机群协同性能指标满足预设条件时，按照全局最优路径进行搜索。

本实施例中，在确定无人机群的全局最优路径之后，根据确定出的全局最优路径，计算机群协同性能指标，判断机群协同性能指标是否满足预设条件，当满足预设条件时，无人机群中的各无人机按照全局最优路径执行搜索任务。一些方式中，预设条件可以是能够找到所有的动态目标，也可以是达到了预设的迭代次数。即，当无人机群的机群协同性能指标能够找到所有的动态目标时，即使没有达到设定的迭代次数，认为已经找到了无人机群的N步最优决策序列；或者，当无人机群的机群协同性能指标已经达到了设定的迭代次数，则停止迭代，输出当前确定出的N步最优决策序列。

一些实施例中，确定无人机的局部最优路径之前，还包括：根据当前状态，确定无人机的所有可能路径。一些方式中，根据城市环境模型建立的栅格地图，设定无人机仅能在街道上行进，确定无人机在栅格地图上的可行路径，基于可行路径，根据无人机的当前状态，确定符合滚动时域窗口长度条件下的所有可能路径。

一些实施例中，根据吸引信息素和排斥信息素，确定无人机的局部最优路径，包括：

根据吸引信息素和排斥信息素，分别计算无人机在每条可能路径上可达到的局部性能指标；

本实施例中，对于无人机群中的每个无人机，计算无人机在每条可能路径上可达到的局部性能指标，将局部性能指标最优的可能路径作为该无人机的局部最优路径。

一些实施例中，根据吸引信息素、排斥信息素和调度信息素，确定无人机群的全局最优路径，包括：

根据吸引信息素、排斥信息素和调度信息素，计算无人机在每条可能路径上的全局性能指标；

一些实施例中，城市环境下多无人机协同搜索方法，还包括：在每个决策周期，无人机根据当前已搜索栅格的目标检测结果(已搜索栅格存在动态目标，或者不存在动态目标)，更新用于表征动态目标出现概率的目标概率分布图。这样，在搜索初期，利用目标概率分布图的引导作用，能够引导无人机群向目标存在概率高的任务区域中心移动，对动态目标进行包围和封锁。

以下结合具体实施例对本实施例的方法进行详细说明。

本实施例中，结合图2所示，所建立的城市环境模型为：假设在任务区域D中有N_T个动态目标。接到指令后，多架无人机在T_det时间后到达任务区域，开始搜索动态目标，无人机的数量为N_U。根据卫星探测图像对城市环境进行栅格化，得到栅格地图，每个栅格的边长为一个决策周期Δt内无人机的飞行距离，栅格的长度为L_x，宽度为L_y。城市环境中的建筑物均匀分布，且其俯视图为大小相等的矩形，每栋建筑物都被划分为O_x×O_y个栅格，其中O_x和O_y分别是在长方向和宽方向上栅格的个数。将矩形的任务区域D划分为N_x×N_y个栅格，其中，N_x和N_y分别是长方向和宽方向上栅格的个数。将城市环境模型中的场景简化为街道或建筑物两种，每个栅格g(m,n)指代街道或建筑物，表示为：

其中，(m,n)为栅格g(m,n)在任务区域中的正整数索引，且m∈(1,N_x),n∈(1,N_y)。

在图2所示城市环境模式示例中，建筑物为2×2的栅格，任务区域为10×10的栅格。

在无人机的第k个决策周期时，栅格中存在至少一个动态目标的概率为p_mn∈(0,1)，第i个无人机UAV_i在第k个决策周期获得的目标概率分布矩阵为：

TPM_i(k)＝{p_mn(k)|m＝1,2,...,N_x；n＝1,2,...,N_y} (2)

无人机的一个决策周期为Δt，动态目标的位置在Δt时间内变化。为了保证目标概率分布图的准确性，无人机UAV_i对动态目标进行预测并更新TPM_i(k)。在第k-1个决策周期时，动态目标存在于栅格g(m,n)处的概率密度为P(m^k-1,n^k-1)，在第k个决策周期时，动态目标存在于栅格g(m,n)处的概率密度P(m^k,n^k)为：

P(m^k,n^k)＝∫∫P((m^k,n^k)|(m^k-1,n^k-1))×P(m^k-1,n^k-1)dm^k-1dn^k-1 (3)

无人机从初始位置到达任务区域所需时间为T_det，在此期间，根据目标动作模式的先验信息，目标所在位置的概率分布也不同，以下分情况进行说明。

一种动作模式是，动态目标的初始位置未知，动态目标以相同的概率定位在任务区域的任意部分，动态目标所在位置的分布区域D₁的形状表示为：

动态目标所在位置的概率密度函数f₁(m,n)为：

第二种动作模式是，动态目标的初始位置已知，最大速度已知，运动方向未知但方向固定。在第k₀个决策周期，最大速度为v的动态目标从初始位置(m₀,n₀)开始移动，当无人机进入任务区域D时，动态目标所在位置的分布区域D₂表示为：

动态目标所在位置的概率密度函数f₂(m,n)为：

第三种动作模式是，动态目标的初始位置已知，最大速度已知，运动方向未知且方向可变化。在第k₀个决策周期，最大速度为v的动态目标从初始位置(m₀,n₀)开始移动，当无人机进入任务区域D时，动态目标所在位置的分布区域D₃表示为：

D₃＝{(m,n)||m-m₀|+|n-n₀|≤vT_det} (8)

动态目标所在位置的概率密度函数为：

其中，σ是二元正态分布的方差，ω是标准化常数，表示为：

在任务区域内，无人机可以在每个决策周期内从当前所在栅格移动至相邻栅格，搜索过程中，无人机随着对环境和目标的探测，多无人机的协同搜索信息不断更新，对目标概率分布图不断更新。

定义无人机UAV_i检测到栅格g(m,n)处存在动态目标的概率为P_D，表示为：

其中，

表示无人机UAV_i在栅格g(m,n)处对动态目标的目标检测结果(发现目标或未发现目标)，A_mn表示动态目标位于栅格g(m,n)处。数量为N_U的无人机组成无人机群UAV，无人机群利用检测到的信息联合更新目标概率分布图，得到后验概率为：

其中，

表示无人机UAV_i在栅格g(m,n)上对动态目标的目标检测结果。根据贝叶斯定理展开公式(12)，得到：

由于无人机的探测活动是相互独立的，可得到：

通过全概率定理得到：

其中，

表示遍历任务区域内所有栅格，mn_i表示无人机UAV_i检测的栅格g(m_i,n_i)。

根据公式(13)、(14)、(15)可得：

一些实施例中，通过数字信息素赋给任务区域，构建人工势场，引导无人机规划航路和协同决策，在数字信息素的影响下，无人机群在任务区域发布调度信息素，规划航路，实现高效的协同搜索。其中，数字信息素包括调度信息素、吸引信息素和排斥信息素。

对于调度信息素，定义

为第k个决策周期的调度信息素矩阵，s_d(m,n,k)表示栅格g(m,n)在第k个决策周期的调度信息素值，调度信息素的初始值为0。

在滚动时域决策中，无人机UAV_i在第k个决策周期的N步决策序列是：

U_i(k)＝((x₁,y₁),(x₂,y₂),...,(x_N,y_N)) (17)

其中，U_i(k)表示无人机在当前信息条件下通过连续搜索N个栅格可以获得的效益序列，N为滚动时域决策中的滚动窗口长度，(x_l,y_l),l∈(1,N)表示N步决策中无人机在第l步的决策结果，即于第l步搜索栅格g(x_l,y_l)。在每个决策周期中，每个无人机将其N步决策序列发送给无人机群中的其他无人机，以便无人机群中的各无人机通过协作获得N步全局决策。

无人机UAV_i的第l步占用矩阵定义为：

其中，d_mn为在第l个决策周期中，栅格g(m,n)出现在无人机UAV_i接收到其他无人机的决策序列中的次数。

在第k个决策周期，无人机UAV_i的调度信息素矩阵S_d(k)的更新方法为：

其中，

是动态系数，d_d是调度信息素的释放常数，r是中间变量，

是一个通过信息矩阵，当且仅当无人机UAV_i在第r个决策周期中通过栅格g(m,n)时，

否则，

在每个决策周期中，无人机UAV_i根据接收到的其他无人机的决策序列生成调度信息素矩阵，引导无人机群围捕目标或避免向其他无人机可能搜索的栅格移动，从而提高无人机群的协同搜索效率。

对于吸引信息素，定义

为第k个决策周期的吸引信息素矩阵，其中，s_a(m,n,k)表示在第k个决策周期，栅格g(m,n)的吸引信息素值，吸引信息素的初始值为常数。吸引信息素的更新方法为：

S_a(k)＝(1-E_a)((1-G_a)[S_a(k-1)+d_aV]+GP_a(k)) (20)

其中，E_a为吸引信息素的挥发系数，G_a为吸引信息素的传播系数，d_a是吸引信息素的释放常数，GP_a(k)为吸引信息素的传播矩阵。

是搜索信息矩阵，当且仅当在上一个决策周期内任意一个无人机搜索了栅格g(m,n)时，v_mn＝0，否则v_mn＝1。

吸引信息素只在无人机未搜索的栅格中释放。通过吸引信息素，无人机可以被引导到未经搜索的栅格中。GP_a(k)＝(gp_a(m,n,k))_Nx×Ny是在(k-1,k]时期从相邻栅格传播来的吸引信息素的量，其中：

其中，g(x,y)∈U是栅格g(m,n)的相邻栅格，U为栅格g(m,n)的所有相邻栅格集合，L_mn是相邻栅格的总数。s_a(x,y,k-1)表示在第k-1个决策周期，相邻栅格g(x,y)中的吸引信息素值。

对于排斥信息素，定义

为第k个决策周期的排斥信息素矩阵，其中，s_r(m,n,k)表示栅格g(m,n)在第k个决策周期的排斥信息素值。排斥信息素的更新方法为：

S_r(k)＝(1-E_r)[(1-G_r)(S_r(k-1)+d_rV)+GP_r(k)] (22)

其中，E_r为排斥信息素的挥发系数，G_r为排斥信息素的传播系数，d_r是排斥信息素的释放常数，GP_r(k)是排斥信息素的传播矩阵。排斥信息素只在无人机上一个决策周期已搜索的栅格中释放。通过排斥信息素，无人机可以避免重复搜索已经搜索过的栅格。GP_r(k)＝(gp_r(m,n,k))_Nx×Ny是(k-1,k]时期从相邻栅格引入的排斥信息素的量，其中：

s_r(x,y,k-1)表示在第k-1个决策周期，相邻栅格g(x,y)的排斥信息素值。

一些实施例中，无人机UAV_i在第k个决策周期的搜索优化模型为：

其中，J(X(k),U(k))为无人机的总体性能指标，x(k)是无人机在第k个决策周期的状态，u(k)是无人机在第k个决策周期的控制输入(决策序列)，f是控制输入、状态输入与状态输出之间的映射关系，无人机在第k+1个决策周期的状态方程为：

x(k+1)＝f(x(k),u(k)) (25)

x(k+q|k)表示无人机在第k个决策周期预测到的第k+q个决策周期的状态，根据无人机的状态方程，当第k个决策周期的决策序列U_i(k)已知时，可以预测出无人机在第k+1到第k+N个决策周期的状态X_i(k)，其中，决策序列和预测的无人机的状态可以表示为：

U_i(k)＝[u(k),u(k+1|k),...,u(k+N-1|k)] (26)

X_i(k)＝[x(k+1|k),x(k+2|k),…,x(k+N|k)] (27)

G(x(k),u(k))为无人机在第k个决策周期的约束条件，U^*(k)＝[u(k),u(k+1|k),...,u(k+N-1|k)]为无人机在第k个决策周期的最优决策序列，根据公式(17)可得，(x₁,y₁)＝u(k)，(x_l,y_l)＝u(k+l-1|k),l∈[1,N]。根据公式(24)所示优化模型，在最优决策序列下，可得到最大化的无人机的总体性能指标J(X(k),U(k))。

对于个体无人机的总体性能指标，在滚动时域决策中，总体性能指标表示为：

J(X(k),U(k))＝λ₁J_t+λ₂J_c (28)

其中，λ₁是寻找目标收入系数，λ₂是寻找机器间合作收入系数，J_t为目标发现收益，J_c为机群协同收益。

一些实施方式中，目标发现收益J_t是指无人机在搜索过程中通过机载传感器不断探测和发现动态目标的可能性，目标发现收益可以引导无人机到达动态目标存在概率高的区域，其定义为：

其中，

是滚动时域决策的动态系数，考虑到滚动窗口长度N越长，目标概率分布图的精度越低，该动态系数可以平衡目标概率分布图精度的影响。l(k+q)表示目标概率分布区域在第k+q个决策周期所处位置的吸引作用，计算公式如下：

其中，h(i,j,x,y)＝|i-x|+|j-y|表示栅格g(x,y)到栅格g(i,j)的曼哈顿距离。由于部分类型目标的发现概率仅分布于有限的狭小区域，导致在大部分区域中，在无人机所处位置上该类型目标分布概率为零，不能起到指引作用，因而使用累加的目标概率和曼哈顿距离来评估任务区域内某一个栅格在目标发现概率方面对无人机的指引作用。

机群协同收益J_c可以引导无人机尽量不重复的搜索栅格，可协调各无人机避免进入同一个栅格。机群协同收益J_c(k)的定义为：

其中，s_d(k)表示无人机在第k个决策周期内的调度信息素值，s_a(k+q)表示第k+q个决策周期无人机所处栅格的吸引信息素值，s_r(k+q)表示第k+q个决策周期无人机所处栅格的排斥信息素值。

为动态系数，α、β、γ为常系数。

一些实施例中，利用无人机群的机群协同性能指标衡量无人机群当前决策的优劣，便于通过迭代获得更优解。机群协同性能指标J_s表示为：

J_s＝λ₁J′_t+λ₂J′_c (32)

其中，J′_t为针对目标的概率分布在N步决策序列内对整个机群的吸引作用，计算公式为(29)。

J′_c为忽视调度信息素条件下无人机群的协同收益，表示为：

在计算J′_t和J′_c时，将无人机群中所有无人机的状态X(k)和控制输入U(k)联立作为无人机群的状态X′(k)和控制输入U′(k)，从而将无人机群作为特殊的个体无人机。

本实施例中，基于上述城市环境模型、无人机模型、数字信息素等模型内容，提供的多无人机协同搜索方法包括：

对于无人机群中的每个无人机：

1)获取无人机的当前状态和上一个决策周期的状态；

根据公式(25)，若当前决策周期为第k个决策周期，则获取无人机在第k个决策周期的状态x(k)，以及获取第k-1个决策周期的状态x(k-1)。

2)根据无人机的当前状态和上一个决策周期的状态，计算吸引信息素和排斥信息素；

对于吸引信息素，按照公式(20)，根据上一个决策周期的状态，更新吸引信息素中的搜索信息矩阵V，按照公式(21)，根据当前状态，更新相邻栅格集合U，根据更新后的搜索信息矩阵和相邻栅格集合，计算得到当前状态下的吸引信息素；

对于排斥信息素，按照公式(22)，更新排斥信息素中的搜索信息矩阵V，按照公式(23)，更新相邻栅格集合U，根据更新后的搜索信息矩阵和相邻栅格集合，计算得到当前状态下的排斥信息素。

3)根据当前状态，确定无人机的所有可能路径；

4)根据吸引信息素和排斥信息素，分别计算无人机在每条可能路径上可达到的局部性能指标；

按照公式(28)-(31)，在每条可能路径上，分别计算无人机的局部性能指标。在计算局部性能指标时，公式31中的调度信息素s_d(k)的取值为0。

5)根据每条可能路径所对应的局部性能指标，选取出局部性能指标达到最大值所对应的局部最优路径。

按照上述1)-5)，无人机群中的每个无人机确定出相应的局部最优路径。之后，各无人机将确定出的N步最优决策序列发送至无人机群中的其他无人机，各无人机根据接收的其他无人机的N步最优决策序列，按照公式(19)，更新调度信息素中的通过信息矩阵

和占用矩阵

根据更新后的通过信息矩阵和占用矩阵，计算调度信息素。

计算得到调度信息素之后，各无人机根据吸引信息素、排斥信息素和调度信息素，按照公式(28)-(31)，分别计算在每条可能路径上可达到的全局性能指标。

根据每条可能路径所对应的全局性能指标，选取出全局性能指标达到最大值所对应的全局最优路径；根据全局最优路径，按照公式(32)、(33)，计算无人机群的机群协同性能指标，判断机群协同性能指标是否满足预设条件，若满足预设条件，则控制无人机群按照全局最优路径执行搜索任务，并且，在每个决策周期，无人机群均按照上述过程确定全局最优路径；若不满足预设条件，则按照前述过程重新确定每个无人机的局部最优路径，计算调度信息素，重新确定无人机群的全局最优路径，根据重新确定的全局最优路径，计算机群协同性能指标，直至机群协同性能指标满足预设条件为止。

本实施例的搜索方法，在搜索初期，利用目标概率的引导作用，引导无人机群向目标存在概率高的任务区域中心移动，对目标进行包围和封锁；之后，利用数字信息素的吸引和排斥作用，引导无人机群搜索任务区域的边缘位置，找到在包围过程中遗漏的可能目标，在数字信息素的作用下，无人机群中的各无人机进行协同搜索，可以快速准确的搜索到动态目标，提高搜索效率。

以下结合实验数据说明依照本实施例的方法可达到的搜索效果。

在仿真实验过程中，设置滚动时域窗口长度N为5，任务区域的面积为30×30平方千米，将任务区域D(N_x×N_y)划分为90×90个栅格，每个栅格为0.5×0.5平方千米，每栋建筑物占用2×2个栅格。

任务区域中的动态目标数量为9，每种动作模式的目标各为3个，对于每种动作模式，利用相应的概率分布随机生成目标的运动状态。其中，二元正态分布σ的方差为10，目标的最大速度为v＝45km/h。

无人机群中的无人机数量N_U为12，各无人机从接收搜索指令到进入任务区域的时间间隔T_det为20秒，每个决策周期为30秒，设置迭代次数为5。

对于吸引信息素，设定传播系数G_a为0.3，挥发系数E_a为0.4，释放常数d_a为1。对于排斥信息素，传播系数G_r为0.3，挥发系数E_r为0.4，释放常数d_r为10。对于调度信息素，释放常数d_d为5。

图3A所示为在第100个决策周期时的无人机飞行路线图，图3B所示为在第200个决策周期时的无人机飞行路线图，图3C所示为在第300个决策周期时的无人机飞行路线图，其中，不同的线型代表不同无人机的飞行路线，由图可见，无人机的搜索轨迹重叠很少，在第300个决策周期，无人机群的搜索范围已经覆盖大部分任务区域。

结合图4、5，将本实施例的方法与现有的目标概率图方法、数字信息素图方法进行对比分析，只有本实施例的方法能够在要求的时间之内搜索到所有目标，在第146个决策周期，利用本实施例的方法，无人机群能够找到所有目标(图中x＝146，y＝9)。通过分析，目标概率图方法在搜索初期可以快速形成包围圈，找到部分目标，但是由于缺失数字信息素的引导，在搜索中期效率停滞，可能陷入重复搜索或者多个无人机重叠搜索，效率不高，对少数逃逸目标搜索能力较差；数字信息素图方法的搜索过程较为稳定，发现目标的数量随时间稳定增长，但是搜索初期缺少目标概率引导，难以快速形成包围圈；而本实施例的城市环境下多无人机协同搜索方法，能够在搜索初期快速形成包围圈，且在数字信息素的引导下，避免重复搜索，能够在尽量短的时间内发现更多目标，提高搜索效率，达到更优的系统性能。

结合图6、7所示，与现有的通信受限下多无人机协同运动目标搜索方法相比，在搜索初期，本实施例的方法与该现有的方法的表现基本一致，在搜索过程中期之后，该现有的方法的搜索效率下降明显，搜索范围更发散，可能造成少数目标逃离围捕圈。由此，本实施例的方法在广域长期搜索过程中具有更优的稳定性能。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

如图8所示，本说明书实施例还提供一种城市环境下多无人机协同搜索装置，包括：

第一计算模块，用于根据当前状态和上一决策周期的状态，计算吸引信息素和排斥信息素；

局部路径确定模块，用于根据吸引信息素和排斥信息素，确定无人机的局部最优路径；

全局路径确定模块，用于根据吸引信息素、排斥信息素和调度信息素，确定无人机群的全局最优路径；

搜索模块，用于按照全局最优路径进行搜索。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图9示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本说明书一个或多个实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本说明书一个或多个实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.城市环境下多无人机协同搜索方法，其特征在于，包括：

获取无人机的当前状态和上一决策周期的状态；

按照所述全局最优路径进行搜索。

2.根据权利要求1所述的方法，其特征在于，按照所述全局最优路径进行搜索之前，还包括：

根据所述全局最优路径，计算机群协同性能指标；

3.根据权利要求1所述的方法，其特征在于，所述确定无人机的局部最优路径之前，还包括：

根据所述当前状态，确定无人机的所有可能路径。

4.根据权利要求3所述的方法，其特征在于，根据所述吸引信息素和排斥信息素，确定无人机的局部最优路径，包括：

5.根据权利要求3所述的方法，其特征在于，根据所述吸引信息素、排斥信息素和调度信息素，确定无人机群的全局最优路径，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：在每个决策周期，根据当前已搜索栅格的目标检测结果，更新用于表征动态目标出现概率的目标概率分布图。

7.城市环境下多无人机协同搜索装置，其特征在于，包括：

搜索模块，用于按照所述全局最优路径进行搜索。

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求7所述的装置，其特征在于，还包括：

10.根据权利要求7所述的装置，其特征在于，还包括：